Qualquer um pode criar um teste, especialmente agora com tudo que a IA pode fazer. A questão mais difícil é se esse teste mede o que ele afirma, se ele se mantém válido entre populações e se permanece justo e válido em larga escala.
O ETS desenvolve, administra e pontua milhões de testes a cada ano, e a maioria deles traz consequências reais para as pessoas que os fazem. Um único resultado pode moldar o futuro do aprendiz, uma oportunidade de carreira ou o resultado de um licenciamento. Possibilitar essas oportunidades para as pessoas é o que impulsiona nossa missão e por que exigimos padrões tão altos a nós mesmos. Quando a IA entra em cena, o padrão aumenta, não diminui. Nós o enfrentamos fazendo escolhas disciplinadas sobre onde a IA agrega valor e garantindo que os humanos, e não a IA, permaneçam no comando.
Como o ETS utiliza a IA ao longo do ciclo de vida da avaliação
Na ETS, a IA suporta múltiplas etapas do ciclo de vida da avaliação: desenvolvimento de conteúdo, montagem e entrega de testes, e pontuação.
Desenvolvimento de conteúdo
Usamos nosso motor proprietário de conteúdo de IA para gerar primeiros rascunhos de itens e conteúdos relacionados na maioria dos nossos principais programas. Estabelecemos as proteções, restrições e requisitos da IA e trazemos décadas de experiência em desenvolvimento de avaliações para direcionar a geração inicial de maneiras adequadas. Hoje, quase 80% do nosso conteúdo de avaliação, incluindo perguntas e trechos de leitura, Comece por aqui.
Mas gerar conteúdo é só o ponto de partida. Antes de um item ser utilizado em qualquer um de nossos programas, ele passa por um processo estruturado de revisão que visa garantir sua justiça e acessibilidade, ao mesmo tempo em que confirma que ele se comporta conforme as expectativas e o critério pretendido. Em termos simples, não tratamos a produção de IA como trabalho finalizado. Tratamos como um candidato que deve conquistar seu lugar para ser utilizado.
Montagem e entrega
Usamos IA para ajudar a personalizar os testes adaptando-os em tempo real. Em um ambiente de teste adaptativo, perguntas ou tarefas podem ser selecionadas com base em como o examinador respondeu às anteriores, ajudando a avaliação a coletar as evidências corretas de forma mais eficiente. Esse tipo de avaliação pode permitir tempos de teste mais curtos e eficientes, Reduzir a quantidade de "tempo de sentada" para os candidatos, além de adaptar o conteúdo mais de acordo com seu nível.
Isso não é apenas uma forma melhor para os candidatos mostrarem o que podem fazer. Também é uma medida importante de segurança: as pessoas não recebem exatamente o mesmo formulário e, portanto, podem receber conjuntos diferentes de conteúdo.
Pontuação
O ETS utiliza IA na pontuação desde o início dos anos 2000, muito antes do surgimento dos grandes modelos de linguagem (LLMs). A verdadeira questão não é se a IA consegue obter uma resposta, mas se ela consegue fazê-lo de forma confiável, justa e conforme os padrões do programa que atende.
Por isso, algumas avaliações do ETS são pontuadas inteiramente por humanos, enquanto outras usam apenas IA e outras utilizam uma combinação de pontuação de IA e humana, dependendo do tipo de resposta. O modelo correto de pontuação depende do programa, dos riscos da pontuação, do tipo de resposta avaliada e das expectativas dos mercados que ele atende, tudo isso em serviço de produzir o resultado mais preciso, justo e defensável para cada aprendiz.
O que "confiança" significa para nossos stakeholders
Confiança na avaliação habilitada por IA não é uma única qualidade. É se o sistema produz consistentemente resultados válidos, justos e confiáveis e se as pessoas que dependem desses resultados acreditam que isso acontece.
Os principais stakeholders do ETS entendem a confiança em relação à IA de forma diferente. Os participantes frequentemente veem a confiança como resultado de justiça e transparência, enquanto parceiros institucionais podem exigir evidências de controles disciplinados do ciclo de vida e de pessoas no ciclo. Os parceiros têm interesse em monitoramento contínuo para garantir que a IA não enfraqueça comparabilidade, confiabilidade ou justiça à medida que os programas crescem, E os formuladores de políticas precisam de uma explicação clara de como os riscos são identificados, medidos e gerenciados entre as populações.
Na ETS, o objetivo não é usar IA em todos os lugares. É usá-la onde ela nos ajuda a fazer mais pelos aprendizes e pelas instituições enquanto mantemos os padrões que construímos ao longo de décadas. Isso significa usar o método certo para a tarefa, manter os humanos no comando e avaliar minuciosamente as evidências antes de confiarmos em qualquer nova capacidade. É assim que tornamos a IA útil e responsável, mantendo a confiança que nossos pontuadores e educadores incutiram em nós e em nossos produtos.