e-rater 엔진의 작동 원리

에세이 채점 시 e-rater^® 엔진은 다음과 같은 역할을 합니다:

특징들이 독자의 점수를 예측할 뿐만 아니라 글쓰기 주제와 논리적으로 관련이 있는지 검증하세요
주제에서 벗어나거나 일관성이 없는 답변은 자동으로 플래그를 표시하여 검토를 위해 따로 보관할 수 있도록 합니다
통계 모델에서 점수 특징을 결합하여 최종 점수 추정치를 산출합니다

e-rater 엔진은 글쓰기 능력의 중요하고 도전적인 측면을 모델링하는 능력을 확장하는 것을 목표로 지속적으로 개발 및 개선되고 있습니다. 지속적인 연구는 e-rater 엔진의 역량을 강화하여 에세이 내 주장의 구조를 식별하고 평가할 수 있게 하고, 학생과 시험 응시자에서 언어의 창의적 사용을 평가하는 것을 목표로 하고 있습니다.

E-rater 기능

e-rater 채점에 사용되는 특징들은 ETS에서 거의 20년에 걸친 자연어 처리 연구의 결과물이며, 각 특징은 독립적인 하위 특징들로 구성될 수 있습니다. 또한 e-평가자 엔진을 기반으로 한 K–12 학년 간 작문 점수의 수직 연동 척도인 발달 작문 척도(Developmental Writing Scale)를 확립하는 작업도 진행되었습니다.

e-rater 점수 엔진의 현재 특징은 다음과 같습니다:

어휘 측정 기반의 내용 분석
어휘 복잡성/어휘
문법, 용법 및 기계적 오류 비율
스타일 댓글의 비율
조직 및 개발 점수
보상 있는 관용구문

에세이에 총 점수를 부여하기 위한 특징 조정은 특정 프롬프트에 맞춰 조정하거나 "일반적" 방식으로 적용할 수 있어, 동일한 e-레이터 모델을 사용하여 다양한 즉각적인 답변을 평가할 수 있습니다.

점수 합의

e-평가자 엔진에 적합한 과제(응답 주장의 정확성이 아닌 글쓰기 품질로 점수를 매기는 에세이 분량 작성 과제)의 경우, 인간 평가자와의 합의가 매우 강할 수 있습니다. Attali, Bridgeman & Trapani가 2010 년 『Automated Essay Writing with e-rater v2.0 (PDF)』에서 밝힌 바와 같이, TOEFL^® 독립 및 GRE^® 문제 과제에서 전자 평가자 엔진이 인간 평가자와 두 독립 평가자 간의 합의보다 높았습니다.