AI支援ライティング:自動採点への示唆

生成AIの急速な進歩は人々の執筆方法を変えました。AIは現在、多くの日常的な執筆ツールに組み込まれており、ユーザーがアイデアを生み出し、内容を草稿にし、文章を修正し、文章を改善するのを支援しています。その結果、執筆はますます人間とAIの協働プロセスとなっています。学生、教育者、テスト組織にとって、これは根本的な疑問を投げかけます。AIが執筆プロセスの一部となるとき、私たちはどのような重要な執筆スキルを重視し、どのように測定すべきか?

この変化は、エッセイが人間によって独立して書かれるという前提で開発されてきた既存の自動採点システムにも挑戦しています。文法、用法、仕組み、構成などの特徴は長らく文章の質の指標として使われており、多くの自動採点モデルの重要な要素です。しかし、AIがこれらの執筆の面を最小限の努力で改善できるなら、自動採点におけるAIの役割を再考する必要があります。この課題は、AIの使用が制御しにくい非監督ライティング課題に最も関連しており、正式な監督付きライティングテストではツールへのアクセスが制限される場合ではありません。

最近の論文「AI生成エッセイ:自動採点と学術的誠実性への特徴と影響」は、『Educational Measurement: Issues and Practice(EM:IP)』に掲載され、GRE分析ライティング評価の視点からこの問題を探っています。この研究はETSの夏季インターンシッププロジェクトから発展し、AI生成エッセイと人間が書いたエッセイを比較し、訓練された人間の評価者とETSの自動採点エンジンeレーティングツールの両方を用いて評価しました。この発見は、AI生成と人間が書いたエッセイの重要な違いを明らかにし、次世代の自動採点システムにとって有用な洞察を提供します。

自動スコアリングに新たな課題が直面しています

自動採点は大規模なライティング評価において重要な役割を果たします。これらのシステムは、NLP技術で効率的に計算できるため、文法、用法、仕組み、スタイル、組織、語彙選択などの言語特徴に依存することが多いです。これらの特徴は多くの言語テストの構成要素であり、議論や推論に重点を置いた課題では、アイデアや証拠、推論の質を示す直接的な証拠というよりも、より深い文章の質を示す間接的な指標として機能することが多いです。

例えば、正確な文法、明確な構成、よく練られた段落で書く学生は、より強い推論力やコミュニケーション能力を示すことが多いです。

生成AIはその関係を変えます。AI生成のエッセイは、洗練された構造化された文章を生み出すため、言語関連の特徴で高い評価を得られます。しかし、AI生成のエッセイによる強い言語表現は、必ずしも強い推論や意味のある分析、独創的な考えを伴うとは限りません。

その結果、これまで執筆の質を示す良い指標とされてきた機能のいくつかが、エッセイが生成されたりAIに大きく支援されたりすると信頼性が低下します。

調査結果

この研究は二つの重要な発見を明らかにしました。

まず、AI生成のエッセイは、基盤となるアイデアや議論が比較的限定的であっても、言語関連の特徴に関する人間が書いたエッセイを一貫して上回っていました。次に、電子評価者は® AI生成のエッセイに人間の評価者よりも高いスコアを付けました。

この違いは、伝統的に自動スコアリングシステムがどのように開発されてきたかを反映しています。E-Rator®は人間が書いたエッセイを用いて訓練されており、強い言語使用は一般的に全体的に優れた文章力と結びついています。そのため、これらの特徴はスコアリング過程で重要な役割を果たします。

AI生成のエッセイは、これらの言語関連の特徴で非常に優れた成果を上げることができますが、強い分析的推論、証拠の活用、議論の深さに欠けています。e評価®者がAI生成のエッセイを評価する際にこれらの特徴に同じ重みを割り当てると、スコアが膨らみます。

一方、人間の評価者は言語の質だけでなく、推論の質、証拠の活用、アイデアの展開も評価し、スコアリングルーブリックに従って評価します。これが、人間の評価者がAI生成のエッセイを自動化システムほど高く評価できなかった理由を説明しています。

重要なのは、これらの調査結果がe-rateer®に欠陥があることを示唆するものではないということです。むしろ、生成AIが既存の自動採点システムに構築されてきた前提のいくつかを変えたことを強調しています。

自動スコアリングに次に必要とされるもの

自動スコアリングシステムは単にスコアを割り当てるだけではありません。採点が始まる前に、通常はその回答が採点にふさわしいかどうかを確認します。伝統的に、このステップはトピックから外れた、異常に短すぎたり長すぎたり、繰り返しが多い、暗記済み、または採点に適さないエッセイを指摘することに焦点を当ててきました。

AI支援による執筆がより一般的になるにつれて、この初期のスクリーニングプロセスは、AI生成またはAI支援の強い回答をAI使用が許可されていない場合に特定するために拡大する必要があります。実際、EM:IP論文の発見は、さまざまな生成AIモデルによって生成されたエッセイを高精度で検出できることを示しています。しかし、新しいAIモデルが登場するにつれて検出手法は継続的に更新される必要があります。

同時に、自動採点システムは執筆の異なる側面にどれだけ重点を置いているかを再考する必要があります。表面的な言語機能は、AIが最小限の努力でそれらを改善できる場合、文章のより深い推論の指標としてはあまり有用でないかもしれません。

今後のシステムは、証拠の効果的な活用、推論の質、分析の深さ、議論の強さなど、より深い執筆の資質により重点を置くべきです。

ライティング評価の未来

AI支援の執筆は今後も定着し続けます。これらのツールが日常の執筆の一部となる中で、中心的な問いはもはやそれらを検出したり防止したりするのではなく、この新しい環境で執筆から何を測定すべきかを再定義することです。

この質問に答えるには、どの程度の独立した文章力が期待されるか、どのようなAI支援が適切か、文章の質を評価するためにどのような証拠を用いるべきかなど、いくつかの重要な問題について合意が必要です。自動スコアリングシステムは、この広範な議論とともに進化し、AI時代においても有効で意味のある文章評価を支え続ける必要があります。

{"teaserCardGridModuleHeader":"洞察が進歩を促す","teaserCardGridModuleDescription":"教育、労働、人間の可能性を前進させる研究、物語、アイデアを発見しましょう。","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"ETSでAIを発見","teaserCardDescription":"私たちのAIビジョン、原則、ソリューションについて学び、そして実際のAIスキルを従業員にどのように活用しているかをご覧ください。","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"画像1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"ヒューマン・プログレス・レポート","teaserCardDescription":"ETSの使命が人と影響を通じてどのように実現されるかをご覧ください。これらは変革、機会、そして進歩の物語です。","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"画像2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}