PESQUISA NO TOEFL

Dentro das Atualizações do TOEFL iBT: Validade por Design

23 de abril de 2026

Por mais de seis décadas, o TOEFL tem funcionado como uma avaliação importante da proficiência acadêmica em inglês, servindo como um recurso importante para a tomada de decisões em admissões universitárias, bem como em outros contextos de ensino superior e profissionais.

Desde a criação do exame em 1964, a ETS revisou o TOEFL em várias ocasiões para refletir o pensamento atualizado no ensino e avaliação de línguas, avanços na ciência da mensuração e necessidades sociais em evolução. A versão atual do teste, TOEFL iBT, foi criada em 2005. Em janeiro deste ano, a ETS lançou uma versão atualizada do exame.

Esta atualização mantém o mesmo propósito central e se baseia na longa história do teste TOEFL como uma avaliação válida e confiável baseada em décadas de pesquisa em medição no ETS. Estamos animados para compartilhar mais sobre a filosofia de design por trás dessas melhorias.

Construindo um Exame de Inglês que Produza Resultados Significativos

Um requisito crítico para todos os testes é que eles sejam válidos para as alegações e os usos finais de seus resultados. Em outras palavras: os resultados devem ser significativos. As evidências para essas alegações e usos válidos também devem ser variadas e suficientes. Quanto mais oportunidades um estudante tiver para demonstrar o que pode fazer em uma variedade de tarefas (por exemplo, mais itens de diferentes tipos), maior será a confiança nos resultados (validade).

Em qualquer argumento de validade, evidências são necessárias. Essas evidências referem-se às informações que coletamos sobre o que uma pessoa pode fazer – ou seja, as tarefas do teste e as pontuações concedidas pelo desempenho nessas tarefas.

Um teste de proficiência em inglês para fins de admissão deve incluir tarefas que: (1) abrangem as quatro habilidades linguísticas (leitura, escrita, escuta e fala); (2) refletem o uso integrado dessas habilidades típico do estudo universitário (por exemplo, leitura e depois escrita); e (3) incluam características do uso real da língua.

As pontuações produzidas pelo teste também devem ser uma estimativa confiável da habilidade geral da linguagem – com um nível adequado de precisão – e ser consistentemente precisas e precisas em toda a faixa exigida de níveis de proficiência linguística. Para os testes de proficiência linguística, os resultados também devem refletir com precisão a capacidade de usar a linguagem para ter sucesso em ambientes acadêmicos diversos.

Nos últimos 20 anos, os ambientes acadêmicos modernos evoluíram para enfatizar novas formas de comunicação, facilitadas por novas tecnologias e modelos pedagógicos. Os estudantes de hoje, por exemplo, precisam ser capazes de se comunicar com colegas de todo o mundo em ambientes de aprendizagem em grupo, e não apenas absorver passivamente as aulas. Eles também devem ser capazes de interpretar uma gama mais ampla de textos em inglês.

Para medir as habilidades em inglês necessárias para prosperar em ambientes acadêmicos modernos e capturar evidências significativas para resultados válidos, o TOEFL iBT atualizado incorpora uma variedade de tarefas diversas que ampliam nossa coleção de evidências significativas de habilidade linguística.

Aumentando a Diversidade e o Volume dos Tipos de Tarefas

O TOEFL iBT atualizado adicionou mais tarefas de teste de maior variedade, construindo sobre a base sólida do formato original. O desempenho do candidato é significativo se estiver alinhado com a capacidade de comunicação em um ambiente acadêmico, o que inclui não apenas ouvir aulas ou ler livros didáticos, mas também se envolver em outros contextos universitários que contribuem para o sucesso acadêmico.

Um desafio comum para desenvolvedores de testes, no entanto, é que tarefas de teste que imitam de perto atividades do mundo real podem ser inviáveis e demoradas para serem administradas, enquanto fornecem relativamente pouca informação de medição e evidências relacionadas.

Por exemplo, você pode imaginar uma prova de escrita que consiste inteiramente em uma única redação escrita de uma hora, avaliada em uma escala de 1 a 5. Tal teste pode ser visto como "autêntico", mas oferece uma visão restrita da habilidade linguística do aluno e limita a oportunidade de avaliar todo o espectro das habilidades do aluno além do item único.

Qualitativamente, esse teste hipotético fornece informações sobre a capacidade de realizar apenas um tipo de escrita. Quantitativamente, ele produz apenas cinco pontos, o que limita sua capacidade de discernir de forma confiável diferentes níveis de desempenho. Essa abordagem também é vulnerável a circunstâncias aleatórias; por exemplo, se um escritor capaz tiver dificuldades com o tema do ensaio, as consequências podem ser severas.

Uma abordagem alternativa é usar não apenas mais tarefas, mas também uma diversidade de tarefas, proporcionando uma visão mais ampla da capacidade e maior confiabilidade na medição. Em busca desse objetivo, o iBT atualizado do TOEFL inclui tarefas que medem habilidades linguísticas fundamentais, bem como tarefas acadêmicas modernizadas que permitem insights mais profundos sobre a capacidade comunicativa.

Como o TOEFL iBT modernizou sua seção de fala

A seção de fala do TOEFL iBT mostra essa filosofia de design em ação. Para começar, uma tarefa de fala bem pesquisada, Ouvir e Repetir, avalia a capacidade de compreender uma frase falada e reproduzi-la com precisão. O aluno deve decodificar rapidamente a entrada da linguagem e depois regenerar com precisão a língua para produzir uma resposta, refletindo o desenvolvimento de suas habilidades linguísticas subjacentes.

Essa tarefa incorpora habilidades fundamentais necessárias para a comunicação oral (Levelt, 1989). Além disso, indivíduos com um sistema interno de linguagem altamente desenvolvido podem reproduzir frases mais longas de forma mais eficiente e precisa, de modo que, variando o comprimento das frases, é possível medir de forma eficiente a habilidade geral da linguagem em uma ampla gama de proficiência linguística (Davis & Norris, 2021).

Ouvir e Repetir é usado em combinação com uma tarefa de comunicação oral, Faça uma Entrevista, onde os alunos participam de uma conversa simulada com um entrevistador pré-gravado. A entrevista ocorre em diversas situações acadêmicas, como participação em um estudo de pesquisa, e os alunos são avaliados em um total de quatro perguntas relacionadas ao contexto da entrevista. As perguntas iniciais focam em informações factuais e experiências pessoais, enquanto as perguntas posteriores pedem que expressem e apoiem opiniões sobre questões mais amplas.

Essa tarefa mede a capacidade do aluno de falar sobre uma variedade de temas, produzindo uma resposta clara e coerente com o apoio e elaboração adequados. A tarefa também mede a capacidade de produzir fala inteligível, fluente e que faça uso eficaz de uma variedade de vocabulário e estruturas gramaticais.

Essa combinação de tarefas que visam habilidades fundamentais (Ouvir e Repetir) e comunicativas (Fazer uma Entrevista) proporciona diversidade na representação dos construtos e nas evidências relacionadas sobre a habilidade oral dos alunos, mantendo o significado das pontuações para a tomada de decisões em contextos acadêmicos.

Vinculando os Resultados do TOEFL ao Desempenho Acadêmico Real

Independentemente de uma tarefa focar em habilidades fundamentais ou comunicativas, a significância exige que o desempenho na tarefa preveja desempenho em linguagem do mundo real adequado para o sucesso acadêmico. Caso contrário, atribuir uma nota de teste seria um exercício inútil.

Para as tarefas de Ouvir e Repetir e Entrevista Virtual , pesquisas recentes na Universidade do Havaí em Manoa descobriram que as pontuações nessas tarefas estavam altamente correlacionadas com o desempenho em outros tipos de tarefas de linguagem comunicativa atribuídas em sala de aula.

Esses pesquisadores encontraram correlações de 0,84 entre as pontuações na tarefa Ouvir e Repetir e em cada uma das duas tarefas comunicativas da sala de aula, e 0,83-0,85 na tarefa de Entrevista Virtual . Esses resultados sugerem que ambas as tarefas do iBT atualizado do TOEFL são muito bons preditores de desempenho em tipos típicos de fala acadêmica.

Modernizando as Seções de Leitura e Escrita do TOEFL iBT

A ETS implementou uma estratégia semelhante – aumentando a diversidade dos tipos de tarefas e variando as oportunidades para avaliar o desempenho dos alunos – também nas seções de Leitura e Escrita.

Na nova tarefa adicionada da seção de Leitura, Completar as Palavras, a segunda metade de cada segunda palavra dentro de um trecho de leitura é excluída. Os alunos são obrigados a preencher as letras faltantes para recriar as palavras originais e criar um texto coerente.

Essa tarefa – comumente conhecida como teste C – fornece de forma eficiente informações sobre a capacidade de processar e entender textos – bem como conhecimento de vocabulário, sintaxe e ortografia. Para complementar essa tarefa, tarefas mais tradicionais de compreensão de leitura, como Ler uma Passagem Acadêmica, fornecem insights sobre a capacidade de obter informações e entender significados, como é típico em estudos acadêmicos.

Na seção de Redação, a tarefa Escrever para uma Discussão Acadêmica avalia os aspectos comunicativos das habilidades de alfabetização. Essa tarefa ocorre no contexto de uma discussão contínua em aula sobre uma questão colocada pelo instrutor do curso. O aluno acrescenta suas próprias opiniões, apoiadas por raciocínio, conhecimento ou experiência relevantes. Ele também pode responder às contribuições dos colegas.

Além disso, Escrever para uma Discussão Acadêmica simula um tipo de escrita que se tornou cada vez mais comum em contextos acadêmicos. Também fornece um contexto para a escrita, que ajuda a esclarecer se o escritor pode escrever adequadamente para um determinado público e situação. Isso contrasta com os testes tradicionais de escrita que usam um tema "simples", sem descrição do público ou das circunstâncias.

Além dessas características inovadoras, a tarefa Escrever para uma Discussão Acadêmica também mede outros aspectos da comunicação escrita bem-sucedida, incluindo coerência e clareza, qualidade da elaboração e alcance e precisão da linguagem.

Em resumo: Desenvolver o teste iBT atualizado do TOEFL representou um desafio de design intrigante que exigiu construir sobre evidências sólidas de validade, com maior variedade e tarefas adicionais que refletem as rigorosas expectativas e os ambientes acadêmicos diversos das instituições de ensino superior atuais.

Além do conteúdo e da validade dos construtos discutidos acima, o teste iBT do TOEFL também está se beneficiando de novos projetos adaptativos implementados, inovações em ciência da medição, melhorias na segurança dos testes e muito mais. Fique ligado neste canal para saber mais!

Referências

Davis, L., & Norris, J. (2021). Desenvolvimento de uma tarefa inovadora de imitação provocada para avaliação eficiente da proficiência em inglês (Relatório de Pesquisa TOEFL nº 96). ETS. https://doi.org/10.1002/ets2.12338

Isbell, D. R., & Crowther, D. (em publicação). Investigando a relevância no mundo real de um teste acadêmico de língua inglesa: extrapolando avaliações subjetivas e características de desempenho linguístico. Teste de Língua.

Levelt, W. J. M. (1989). Falando: Da intenção à articulação. MIT Press.

Pearlman, M. (2008). Finalizando o plano do teste. Em C. A. Chapelle, M. K. Enright, & J. M. Jamieson (Eds.), Construindo um argumento de validade para o Teste de Inglês como Língua Estrangeira (pp. 227-258). Routledge.