토플 연구

TOEFL iBT 업데이트 내부 설명: 설계에 따른 타당성

2026년 4월 23일

60년 넘게 TOEFL은 학문적 영어 능력의 주요 평가 기관으로 운영되어 왔으며, 대학 입학 및 기타 고등교육 및 전문 분야에서 중요한 의사결정 자원 역할을 해왔습니다.

1964년 시험 도입 이래, ETS는 언어 교육 및 평가의 최신 사고, 측정 과학의 발전, 변화하는 사회적 요구를 반영하기 위해 여러 차례 TOEFL을 개정해 왔습니다. 현재 버전의 TOEFL iBT는 2005년에 만들어졌습니다. 올해 1월, ETS는 시험의 업데이트 버전을 출시했습니다.

이번 업데이트는 동일한 핵심 목적을 유지하며, ETS에서 수십 년간 측정 연구를 바탕으로 유효하고 신뢰할 수 있는 평가로서 TOEFL 시험의 오랜 역사를 기반으로 합니다. 이러한 개선 요소들의 설계 철학에 대해 더 자세히 공유할 수 있어 기쁩니다.

의미 있는 결과를 내는 영어 시험 만들기

모든 검사의 중요한 요건은 그 결과의 주장과 궁극적 용도에 대해 유효해야 한다는 점입니다. 즉, 결과는 의미 있어야 합니다. 이러한 유효한 주장과 사용에 대한 증거도 다양하고 충분해야 합니다. 학생이 다양한 과제(예: 다양한 유형의 문항 증가)에서 자신이 할 수 있는 것을 보여줄 기회가 많을수록 결과에 대한 신뢰도(타당성)가 커집니다.

어떤 타당성 논거에서든 증거가 필요합니다. 이 증거는 우리가 수집한 개인이 할 수 있는 일, 즉 시험 과제와 그 과제들에 대한 성과에 대해 부여되는 점수를 의미합니다.

입학 목적의 영어 능력 시험에는 다음 과제가 포함되어야 합니다: (1) 네 가지 언어 능력(읽기, 쓰기, 듣기, 말하기); (2) 대학 공부에서 흔히 볼 수 있는 이러한 기술(예: 읽기, 쓰기)의 통합적 활용을 반영함; 그리고 (3) 실제 언어 사용 특징을 포함한다.

시험에서 산출된 점수는 전체 언어 능력을 적절한 정밀도로 신뢰성 있게 추정하고, 필요한 언어 능력 수준 범위 전반에 걸쳐 일관되게 정확하고 정확해야 합니다. 언어 능력 검사의 경우, 시험 결과는 다양한 학업 환경에서 언어를 활용해 성공할 수 있는 능력을 정확히 반영해야 합니다.

지난 20년간 현대 학문 환경은 새로운 기술과 교수법 모델에 의해 촉진되는 새로운 소통 방식을 강조하도록 진화해 왔습니다. 예를 들어 오늘날 학생들은 단순히 강의를 수동적으로 받아들이는 것이 아니라 전 세계 동료들과 그룹 학습 환경에서 소통할 수 있어야 합니다. 또한 더 넓은 범위의 영어 텍스트를 해석할 수 있어야 합니다.

현대 학업 환경에서 성공하는 데 필요한 영어 능력을 측정하고 유효한 결과에 대한 의미 있는 증거를 수집하기 위해, 업데이트된 TOEFL iBT는 언어 능력에 대한 의미 있는 증거 수집을 확장하는 다양한 과제를 포함하고 있습니다.

과제 유형의 다양성과 양 증가

업데이트된 TOEFL iBT는 원래 형식의 탄탄한 토대 위에 더 다양한 시험 과제를 추가했습니다. 시험 응시자의 성과는 학업 환경에서 의사소통 능력과 일치할 때 의미가 있습니다. 여기에는 단순히 강의 듣기나 교과서 읽기뿐만 아니라 학업 성공에 기여하는 다른 대학 내 맥락에 참여하는 것도 포함됩니다.

그러나 테스트 개발자들에게 공통된 도전 과제 중 하나는 실제 활동과 매우 유사한 테스트 작업이 실행 시간이 비현실적으로 많이 소요될 수 있고, 측정 정보와 관련 증거를 상대적으로 적게 제공한다는 점입니다.

예를 들어, 1점에서 5점까지의 점수를 매기는 한 시간 분량의 글쓰기 시험을 상상해 보세요. 이러한 시험은 '진정성'으로 보일 수 있지만, 학생의 언어 능력을 좁게 보게 하며, 단일 문항 이상의 전체 역량을 평가할 기회를 제한합니다.

정성적으로, 이 가상의 테스트는 한 가지 유형의 글쓰기만 수행할 수 있는 능력에 대한 정보를 제공합니다. 정량적으로 점수는 단 5점에 불과해 성능 수준을 신뢰성 있게 구분하는 데 한계가 있습니다. 이 접근법은 무작위 상황에도 취약합니다; 예를 들어, 평소 능력 있는 작가가 에세이 주제에 어려움을 겪는다면, 그 결과는 심각할 수 있습니다.

대안으로는 더 많은 작업뿐만 아니라 다양한 작업도 함께 사용하여 능력을 넓게 파악하고 측정 신뢰성을 높이는 방법이 있습니다. 이 목표를 달성하기 위해 업데이트된 TOEFL iBT에는 기초 언어 능력을 측정하는 과제와 의사소통 능력에 대한 더 깊은 통찰을 가능하게 하는 현대화된 학업 과제가 포함되어 있습니다.

TOEFL iBT가 말하는 섹션을 현대화한 방법

TOEFL iBT의 스피킹 섹션은 이 설계 철학이 실제로 적용된 모습을 보여줍니다. 우선, 잘 조사된 말하기 과제인 '듣고 반복하기'는 말한 문장을 이해하고 정확하게 재현하는 능력을 평가합니다. 학생들은 언어 입력을 빠르게 해독한 후, 자신의 언어 능력 발달을 반영하는 반응을 정확하게 재생성해야 합니다.

이 과제는 구두 의사소통에 필요한 기초 기술을 포함합니다(Levelt, 1989). 또한, 고도로 발달된 내면 언어 체계를 가진 개인은 더 긴 문장을 더 효율적이고 정확하게 재현할 수 있어, 문장 길이를 조절함으로써 광범위한 언어 능력 범위에 걸쳐 일반 언어 능력을 효율적으로 측정할 수 있습니다(Davis & Norris, 2021).

듣고 반복 하는 것은 의사소통 말하기 과제인 인터뷰 받기(Take an Interview)와 함께 사용되며, 학생들은 사전 녹화된 인터뷰어와 시뮬레이션 대화에 참여합니다. 인터뷰는 연구 참여와 같은 다양한 학문적 상황에서 진행되며, 학생들은 인터뷰 맥락과 관련된 총 네 가지 질문에 점수를 받습니다. 초기 질문은 사실 정보와 개인적 경험에 초점을 맞추고, 이후 질문은 학생들이 더 넓은 문제에 대해 의견을 표현하고 지지하도록 요구합니다.

이 과제는 학생이 다양한 주제에 대해 말할 수 있는 능력을 측정하며, 적절한 지원과 설명을 통해 명확하고 일관된 답변을 만듭니다. 이 과제는 또한 이해 가능하고 유창하며 다양한 어휘와 문법 구조를 효과적으로 활용하는 말을 만드는 능력을 측정합니다.

기초(듣고 반복하기)와 의사소통(인터뷰 받기) 능력에 초점을 맞춘 이 과제의 조합은 학생들의 구두 언어 능력에 대한 개념 표현과 관련 증거의 다양성을 제공하면서도, 학업 상황에서 의사결정을 위한 점수의 의미를 유지합니다.

TOEFL 결과와 실제 학업 성과를 연계하기

과제가 기초 기술이든 의사소통 능력에 집중하든, 의미 있는 성과는 과제 수행이 학업 성공에 적합한 실제 언어 수행을 예측해야 함을 요구합니다. 그렇지 않으면 시험 점수를 매기는 것은 헛된 시도가 될 것입니다.

듣고 반복하는 과제와 가상 인터뷰 과제에 대해, 하와이 대학교 마노아 캠퍼스의 최근 연구에서는 이 과제들의 점수가 교실 환경에서 배정된 다른 유형의 의사소통 언어 과제 수행과 높은 상관관계를 보였습니다.

연구진은 듣기 및 반복 과제와 두 교실 의사소통 과제 각각에서 점수 간 상관관계가 0.84였고, 가상 인터뷰 과제에서는 0.83-0.85의 상관관계를 발견했습니다. 이 결과는 업데이트된 TOEFL iBT의 두 과제 모두 전형적인 학술 말하기 유형에서 성과를 매우 잘 예측할 수 있음을 시사합니다.

TOEFL iBT 읽기 및 쓰기 섹션의 현대화

ETS는 읽기와 쓰기 섹션에서도 유사한 전략을 도입하여 과제 유형의 다양성을 높이고 학생 성과 평가 기회를 다양하게 했습니다.

읽기 섹션에 새로 추가된 과제인 '단어 완성하기'에서는 읽기 지문 내 두 번째 단어마다 절반이 삭제됩니다. 학생들은 빠진 글자를 채워 원래 단어를 재현하고 일관된 텍스트를 작성해야 합니다.

이 과제는 일반적으로 C-테스트로 알려져 있으며, 텍스트를 처리하고 이해하는 능력뿐만 아니라 어휘, 문법, 철자 지식에 대한 정보를 효율적으로 제공합니다. 이 과제를 보완하기 위해, ' 학술 지문 읽기'와 같은 전통적인 독해 과제는 학문 연구에서 흔히 볼 수 있는 정보를 얻고 의미를 이해하는 능력에 대한 통찰을 제공합니다.

글쓰기 섹션에서는 ' 학업 토론을 위한 글쓰 기' 과제가 문해력 기술의 의사소통 측면을 평가합니다. 이 과제는 강사가 제기한 질문에 대한 수업 토론 중 진행 상황에서 진행됩니다. 학생은 관련 논리, 지식 또는 경험을 바탕으로 자신의 견해를 덧붙입니다. 또한 동료들의 기여에 반응할 수도 있습니다.

또한, 학술 토론을 위한 글 쓰기는 학술 맥락에서 점점 더 흔해지고 있는 글쓰기 유형을 시뮬레이션합니다. 또한 글쓰기에 필요한 맥락을 제공하여, 작가가 주어진 독자와 상황에 맞게 적절히 글을 쓸 수 있는지 명확히 하는 데 도움을 줍니다. 이는 청중이나 상황에 대한 설명이 없는 '빈' 주제를 사용하는 전통적인 글쓰기 시험과는 대조적입니다.

이러한 혁신적인 특징들 외에도, 학술 토론을 위한 글 쓰기 과제는 성공적인 서면 커뮤니케이션의 일관성과 명확성, 상세의 질, 언어의 폭과 정확성 등 다른 측면도 측정합니다.

요약하자면: 업데이트된 TOEFL iBT 시험 개발은 강력한 타당성 근거를 바탕으로 더 다양한 과제와 오늘날 고등교육 기관의 엄격한 기대와 다양한 학문 환경을 반영하는 추가 과제를 요구하는 흥미로운 설계 도전이었습니다.

위에서 논의한 내용 및 구성 타당성 외에도, TOEFL iBT 테스트는 새롭게 구현된 적응형 테스트 설계, 측정 과학 혁신, 테스트 보안 개선 등으로부터 혜택을 받고 있습니다. 더 많은 정보를 원하시면 이 채널을 계속 시청하세요!

참고문헌

데이비스, L., 그리고 노리스, J. (2021). 효율적인 영어 능력 평가를 위한 혁신적인 유도 모방 과제 개발 (TOEFL 연구 보고서 No. 96). ETS. https://doi.org/10.1002/ets2.12338

이스벨, D. R., 그리고 크라우더, D. (출판 예정). 학업 영어 말하기 시험의 실제 관련성 조사: 주관적 평가와 언어 수행 특성 추론. 언어 검사.

레벨트, W. J. M. (1989). 말하기: 의도에서 조음으로. MIT 출판부.

펄먼, M. (2008). 시험 설계도를 마무리하는 중입니다. C. A. Chapelle, M. K. Enright, J. M. Jamieson (편), 영어 외국어 시험의 타당성 논증 구축 (pp. 227-258). 라우틀리지.