TOEFL-FORSCHUNG

Im TOEFL iBT Updates: Validität durch Design

23. April 2026

Seit mehr als sechs Jahrzehnten fungiert TOEFL als wichtige Bewertung der akademischen Englischkompetenz und dient als wichtige Ressource für Entscheidungsfindungen bei Universitätszulassungen sowie in anderen Hochschul- und Berufskontexten.

Seit Einführung der Prüfung im Jahr 1964 hat ETS TOEFL mehrfach überarbeitet, um aktualisiertes Denken im Sprachunterricht und -bewertung, Fortschritte in der Messwissenschaft und gesellschaftliche Bedürfnisse widerzuspiegeln. Die aktuelle Version des Tests, TOEFL iBT, wurde 2005 entwickelt. Im Januar dieses Jahres brachte ETS eine aktualisierte Version der Prüfung auf den Markt.

Dieses Update behält denselben Kernzweck fort und baut auf der langen Geschichte des TOEFL-Tests als valide und vertrauenswürdige Bewertung auf, basierend auf jahrzehntelanger Messforschung bei ETS. Wir freuen uns, mehr über die Designphilosophie hinter diesen Verbesserungen zu berichten.

Eine Englischprüfung erstellen, die sinnvolle Ergebnisse liefert

Eine entscheidende Voraussetzung für alle Tests ist, dass sie für die Behauptungen und letztendlichen Verwendungen ihrer Ergebnisse gültig sind. Mit anderen Worten: Die Ergebnisse müssen bedeutungsvoll sein. Die Belege für diese gültigen Behauptungen und Anwendungen sollten ebenfalls vielfältig und ausreichend sein. Je mehr Möglichkeiten ein Schüler hat, zu zeigen, was er bei verschiedenen Aufgaben leisten kann (z. B. mehr Aufgaben unterschiedlicher Art), desto größer ist das Vertrauen in die Ergebnisse (Validität).

In jedem Validitätsargument ist ein Nachweis erforderlich. Dieser Beweis bezieht sich auf die Informationen, die wir darüber sammeln, was eine Person leisten kann – also die Testaufgaben und die für diese Aufgaben vergebenen Ergebnisse.

Ein Englisch-Sprachtest für Zulassungszwecke muss Aufgaben enthalten, die: (1) alle vier Sprachfertigkeiten (Lesen, Schreiben, Hören und Sprechen) abdecken; (2) eine integrierte Nutzung dieser Fähigkeiten widerspiegeln, die für ein Universitätsstudium typisch ist (z. B. Lesen und dann Schreiben); und (3) Merkmale des tatsächlichen Sprachgebrauchs enthalten.

Die vom Test erzielten Ergebnisse müssen zudem eine verlässliche Schätzung der allgemeinen Sprachkompetenz sein – mit angemessener Präzision – und über den erforderlichen Sprachkompetenzbereich hinweg durchgehend genau und präzise sein. Für Tests zur Sprachkompetenz müssen die Testergebnisse auch die Fähigkeit, Sprache zu nutzen, um in unterschiedlichen akademischen Umgebungen erfolgreich zu sein, genau widerspiegeln.

In den letzten 20 Jahren haben sich moderne akademische Umgebungen so entwickelt, dass sie neue Kommunikationswege betonen, die durch neue Technologien und pädagogische Modelle erleichtert werden. Die heutigen Studierenden müssen beispielsweise in der Lage sein, mit Kommilitonen aus aller Welt in Gruppenlernumgebungen zu kommunizieren und nicht nur die Vorlesungen passiv aufzunehmen. Sie müssen auch in der Lage sein, eine breitere Bandbreite englischer Texte zu interpretieren.

Um die Englischkenntnisse zu messen, die erforderlich sind, um in modernen akademischen Umgebungen erfolgreich zu sein, und um sinnvolle Beweise für gültige Ergebnisse zu erfassen, umfasst das aktualisierte TOEFL iBT eine Vielzahl vielfältiger Aufgaben, die unsere Sammlung aussagekräftiger Belege für Sprachkompetenz erweitern.

Erhöhung der Vielfalt und des Volumens der Aufgabentypen

Das aktualisierte TOEFL iBT hat mehr Prüfungsaufgaben mit größerer Vielfalt hinzugefügt und baut auf der soliden Grundlage des ursprünglichen Formats auf. Die Leistung eines Prüflings ist bedeutsam, wenn sie mit der Fähigkeit übereinstimmt, in einer akademischen Umgebung zu kommunizieren, was nicht nur das Zuhören von Vorlesungen oder das Lesen von Lehrbüchern umfasst, sondern auch das Engagement in anderen universitären Kontexten, die zum akademischen Erfolg beitragen.

Eine häufige Herausforderung für Testentwickler ist jedoch, dass Testaufgaben, die reale Aktivitäten eng nachahmen, unrealistisch zeitaufwendig sein können und relativ wenig Messinformationen und zugehörige Belege liefern.

Zum Beispiel können Sie sich einen Schreibtest vorstellen, der ausschließlich aus einem einstündigen schriftlichen Aufsatz besteht, der auf einer Skala von 1 bis 5 bewertet wird. Ein solcher Test könnte als "authentisch" angesehen werden, bietet aber einen engen Einblick in die Sprachfähigkeiten eines Schülers und begrenzt die Möglichkeit, das gesamte Spektrum der Fähigkeiten eines Schülers über die einzelne Frage hinaus zu beurteilen.

Qualitativ liefert dieser hypothetische Test Informationen über die Fähigkeit, nur eine Art von Schreiben zu erreichen. Quantitativ erzielt er nur fünf Punkte, was seine Fähigkeit einschränkt, verschiedene Leistungsniveaus zuverlässig zu erkennen. Dieser Ansatz ist auch anfällig für zufällige Umstände; zum Beispiel können die Folgen schwerwiegend sein, wenn ein ansonsten fähiger Autor mit dem Thema des Aufsatzes Schwierigkeiten hat.

Ein alternativer Ansatz ist es, nicht nur mehr Aufgaben, sondern auch eine Vielzahl von Aufgaben zu verwenden, um einen breiteren Überblick über Fähigkeiten und eine größere Zuverlässigkeit bei der Messung zu bieten. Um dieses Ziel zu erreichen, enthält das aktualisierte TOEFL iBT Aufgaben, die grundlegende Sprachkenntnisse messen, sowie modernisierte akademische Aufgaben, die tiefere Einblicke in die Kommunikationsfähigkeit ermöglichen.

Wie TOEFL iBT seinen Sprechbereich modernisierte

Der Sprechabschnitt von TOEFL iBT zeigt diese Designphilosophie in Aktion. Zu Beginn bewertet eine gut recherchierte Sprechaufgabe, Listen and Repeat, die Fähigkeit, einen gesprochenen Satz zu verstehen und genau wiederzugeben. Der Schüler muss die Spracheingabe schnell entschlüsseln und dann die Sprache genau regenerieren, um eine Antwort zu erzeugen, die die Entwicklung seiner zugrundeliegenden Sprachfähigkeiten widerspiegelt.

Diese Aufgabe beinhaltet grundlegende Fähigkeiten, die für die mündliche Kommunikation notwendig sind (Levelt, 1989). Darüber hinaus können Personen mit einem hochentwickelten internen Sprachsystem längere Sätze effizienter und genauer wiedergeben, sodass durch Variation der Satzlänge die allgemeine Sprachkompetenz über ein breites Sprachspektrum effizient gemessen werden kann (Davis & Norris, 2021).

Listen and Repeat wird in Kombination mit einer kommunikativen Sprechaufgabe, Take an Interview, verwendet, bei der die Schüler an einem simulierten Gespräch mit einem vorab aufgezeichneten Interviewer teilnehmen. Das Interview findet in verschiedenen akademischen Situationen statt, wie etwa bei der Teilnahme an einer Forschungsstudie, und die Studierenden werden in insgesamt vier Fragen zum Interviewkontext bewertet. Die ersten Fragen konzentrieren sich auf sachliche Informationen und persönliche Erfahrungen, während spätere Fragen die Schüler auffordern, Meinungen zu umfassenderen Themen zu äußern und zu unterstützen.

Diese Aufgabe misst die Fähigkeit des Schülers, zu verschiedenen Themen zu sprechen und eine klare und kohärente Antwort mit angemessener Unterstützung und Ausarbeitung zu liefern. Die Aufgabe misst außerdem die Fähigkeit, eine Sprache zu produzieren, die verständlich, flüssig ist und eine Vielzahl von Vokabel- und Grammatikstrukturen effektiv nutzt.

Diese Kombination aus Aufgaben, die auf grundlegende (Hören und Wiederholen) und kommunikative (Interview führende) Sprechfähigkeiten abzielen, sorgt für Vielfalt in der Konstruktrepräsentation und zugehörige Belege für die mündliche Sprachkompetenz der Schüler, während gleichzeitig die Bedeutung der Ergebnisse für Entscheidungen in akademischen Kontexten erhalten bleibt.

Verknüpfung von TOEFL-Ergebnissen mit der tatsächlichen akademischen Leistung

Unabhängig davon, ob sich eine Aufgabe auf grundlegende oder kommunikative Fähigkeiten konzentriert, erfordert Sinnhaftigkeit, dass die Aufgabenleistung die reale Sprachleistung vorhersagt, die für den akademischen Erfolg geeignet ist. Andernfalls wäre die Vergabe eines Testergebnisses eine vergebliche Übung.

Für die Aufgaben "Hören und Wiederholen" sowie "Virtuelles Interview " zeigten aktuelle Forschungen an der University of Hawai'i at Manoa, dass die Ergebnisse bei diesen Aufgaben stark mit der Leistung bei anderen Arten von kommunikativen Sprachaufgaben im Klassenzimmer korrelieren.

Diese Forscher fanden Korrelationen von 0,84 zwischen den Ergebnissen der Aufgabe Listen and Repeat und jeder der beiden Unterrichtskommunikationsaufgaben sowie 0,83–0,85 für die Aufgabe des virtuellen Interviews . Diese Ergebnisse deuten darauf hin, dass beide Aufgaben aus dem aktualisierten TOEFL iBT sehr gute Prädiktoren für die Leistung bei typischen akademischen Sprechformen sind.

Modernisierung der TOEFL iBT Lese- und Schreibabschnitte

ETS hat eine ähnliche Strategie umgesetzt – die Vielfalt der Aufgabentypen zu erhöhen und die Möglichkeiten zur Bewertung der Schülerleistungen zu bewerten – auch in den Lese- und Schreibabschnitten.

In der neu hinzugefügten Aufgabe des Leseabschnitts, Worte vervollständigen, wird die zweite Hälfte jedes zweiten Wortes innerhalb eines Leseabschnitts gelöscht. Die Schüler müssen die fehlenden Buchstaben ausfüllen, um die Originalwörter nachzubilden und einen zusammenhängenden Text zu erstellen.

Diese Aufgabe – allgemein bekannt als C-Test – liefert effizient Informationen über die Fähigkeit, Texte zu verarbeiten und zu verstehen – sowie über Wortschatz, Syntax und Rechtschreibung. Zur Ergänzung dieser Aufgabe bieten traditionellere Leseverständnisaufgaben wie Read an Academic Passage Einblicke in die Fähigkeit, Informationen zu gewinnen und Bedeutungen zu verstehen, wie es typisch im akademischen Studium ist.

Im Abschnitt "Schreiben" bewertet die Aufgabe "Write for a Academic Discussion " die kommunikativen Aspekte der Lese- und Schreibfähigkeiten. Diese Aufgabe findet im Rahmen einer fortlaufenden Klassendiskussion zu einer vom Kursleiter gestellten Frage statt. Der Studierende fügt eigene Ansichten hinzu, die mit relevanten Argumenten, Wissen oder Erfahrung gestützt sind. Er kann auch auf die Beiträge der Mitschüler reagieren.

Darüber hinaus simuliert Write for an Academic Discussion eine Art von Schreiben, die in akademischen Kontexten zunehmend verbreitet ist. Es bietet auch einen Kontext für das Schreiben, was dazu beiträgt zu klären, ob der Autor angemessen für ein bestimmtes Publikum und eine bestimmte Situation schreiben kann. Dies steht im Gegensatz zu traditionellen Schreibtests, die ein "nacktes" Thema ohne Beschreibung des Publikums oder der Umstände verwenden.

Über diese innovativen Funktionen hinaus misst die Aufgabe "Write for an Academic Discussion " auch weitere Aspekte erfolgreicher schriftlicher Kommunikation, darunter Kohärenz und Klarheit, Qualität der Ausarbeitung sowie Umfang und Präzision der Sprache.

Zusammenfassend: Die Entwicklung des aktualisierten TOEFL iBT-Tests stellte eine interessante Designherausforderung dar, die darauf aufbauen musste, auf starken Validitätsbeweisen mit größerer Vielfalt und zusätzlichen Aufgaben aufzubauen, die die anspruchsvollen Erwartungen und die vielfältigen akademischen Umgebungen heutiger Hochschulen widerspiegeln.

Neben den oben diskutierten Inhalten und der Konstruktvalidität profitiert der TOEFL iBT-Test auch von neu implementiertem adaptivem Testdesign, Innovationen in der Messwissenschaft, Verbesserungen der Testsicherheit und mehr. Bleiben Sie dran, um mehr zu erfahren!

Quellen

Davis, L., & Norris, J. (2021). Entwicklung einer innovativen, erzeugten Nachahmungsaufgabe für eine effiziente Englischkompetenzbewertung (TOEFL Research Report Nr. 96). ETS. https://doi.org/10.1002/ets2.12338

Isbell, D. R., & Crowther, D. (im Druck). Untersuchung der realen Relevanz eines akademischen Englischtests: Extrapolation subjektiver Bewertungen und sprachlicher Leistungsmerkmale. Sprachtests.

Levelt, W. J. M. (1989). Sprechend: Von der Absicht zur Artikulation. MIT Press.

Pearlman, M. (2008). Finalisierung des Testbauplans. In C. A. Chapelle, M. K. Enright, & J. M. Jamieson (Hrsg.), Aufbau eines Validitätsarguments für den Test des Englischen als Fremdsprache (S. 227-258). Routledge.