Yapay Zeka Destekli Yazım: Otomatik Puanlama İçin Sonuçları

Üretken yapay zekanın hızlı gelişimi, insanların yazma biçimini değiştirdi. Yapay zeka artık birçok günlük yazı aracına entegre edilmiş durumda; kullanıcıların fikir üretmesine, içerik taslağına, cümleleri gözden geçirmesine ve yazılarını geliştirmelerine yardımcı oluyor. Sonuç olarak, yazmak giderek insanlar ile yapay zeka arasında işbirlikçi bir süreç haline geliyor. Öğrenciler, eğitimciler ve test kuruluşları için bu temel bir soruyu gündeme getiriyor: Yapay zeka yazı sürecinin bir parçası olduğunda, hangi temel yazma becerilerini değerli görmeli ve bunları nasıl ölçmeliyiz?

Bu değişim, makalelerin insanların bağımsız yazıldığı varsayımına dayanan mevcut otomatik puanlama sistemlerini de zorlamaktadır. Dilbilgisi, kullanım, mekanikler ve organizasyon gibi özellikler uzun süredir yazım kalitesinin göstergesi olarak kullanılmakta ve birçok otomatik puanlama modelinin önemli bir parçasıdır. Ancak yapay zeka yazının bu yönlerini minimum çabayla geliştirebildiğinde, otomatik puanlamadaki rolleri yeniden gözden geçirilmelidir. Bu zorluk, en çok denetimsiz yazma ödevleri için geçerlidir; çünkü yapay zeka kullanımının kontrol edilmesi zordur, bu tür araçlara erişimin kısıtlanabildiği resmi denetimli yazma testlerinden çok.

Educational Measurement: Issues and Practice (EM:IP) dergisinde yayımlanan yakın tarihli "AI-Generated Essays: Automated Scoring and Academic Integrity için Özellikler ve Sonuçlar" başlıklı makale, bu konuyu GRE Analitik Yazım Değerlendirmesi merceğinden inceliyor. ETS yaz staj projesinden gelişen çalışma, yapay zeka tarafından oluşturulan makaleleri insan tarafından yazılmış makalelerle karşılaştırdı ve hem eğitimli insan değerlendiricileri hem de ETS'nin otomatik puanlama motoru e-rater'ı kullanılarak değerlendirdi. Bulgular, yapay zeka tarafından üretilen ve insan tarafından yazılmış makaleler arasındaki önemli farkları ortaya koyuyor ve bir sonraki nesil otomatik puanlama sistemleri için faydalı içgörüler sunuyor.

Otomatik puanlama yeni bir zorlukla karşı karşıya

Otomatik puanlama, büyük ölçekli yazı değerlendirmesinde önemli bir rol oynar. Bu sistemler genellikle dilbilgisi, kullanım, mekanik, stil, organizasyon ve kelime seçimi gibi dil özelliklerine dayanır çünkü NLP teknikleriyle verimli şekilde hesaplanabilirler. Bu özellikler birçok dil testinde yapının bir parçası olsa da, daha çok argümanlama ve akıl yürütmeye odaklanan görevlerde, genellikle fikirlerin, kanıtların veya akıl yürütmenin kalitesine doğrudan kanıt olmaktan ziyade, daha derin yazım kalitesinin dolaylı göstergesi olarak hizmet ederler.

Örneğin, doğru dilbilgisi, net organizasyon ve iyi geliştirilmiş paragraflarla yazan bir öğrenci, genellikle daha güçlü akıl yürütme ve iletişim becerileri gösterir.

Üretken yapay zeka bu ilişkiyi değiştirir. Yapay zeka tarafından üretilen makaleler, teknolojinin cilalı ve iyi yapılandırılmış yazılar üretebildiği için dil ile ilgili özelliklerde yüksek puan alabilir. Ancak, yapay zeka tarafından üretilen makalelerden elde edilen güçlü dil özellikleri her zaman güçlü akıl yürütme, anlamlı analiz veya özgün düşünceyle gelmez.

Sonuç olarak, geleneksel olarak yazım kalitesinin iyi göstergesi olan bazı özellikler, makaleler yapay zeka tarafından oluşturulduğunda veya yoğun şekilde desteklendiğinde daha az güvenilir hale gelir.

Çalışmanın bulduğu bilgiler

Çalışma iki önemli bulguyu ortaya çıkardı.

Birincisi, yapay zeka tarafından üretilen makaleler, temel fikirler veya argümanlar nispeten sınırlı olsa bile, dil ile ilgili konularda insan tarafından yazılmış denemeleri sürekli olarak geride bıraktı. İkincisi, e-dereceleyici®, yapay zeka tarafından üretilen makalelere insan değerlendirmecilerden daha yüksek puanlar verdi.

Bu fark, otomatik puanlama sistemlerinin geleneksel olarak nasıl geliştirildiğini yansıtır. E-Rater® insan tarafından yazılmış makalelerle eğitilmiştir; burada güçlü dil kullanımı genellikle daha güçlü genel yazımla ilişkilidir. Sonuç olarak, bu özellikler puanlama sürecinde önemli bir rol oynar.

Yapay zeka tarafından üretilen makaleler, bu dil ile ilgili özellikler üzerinde son derece iyi performans gösterebilirken, yine de güçlü analitik akıl yürütme, kanıt kullanımı ve tartışma derinliğinden yoksundur. E-dereceleyici®, yapay zeka tarafından oluşturulan makaleleri değerlendirirken bu özelliklere aynı ağırlıkları verdiğinde, puanları şişirir.

Buna karşılık, insan değerlendirmeciler sadece dil kalitesini değil, aynı zamanda akıl yürütme, kanıt kullanımı ve fikir gelişimi kalitesini de puanlama rubriğine göre değerlendirir. Bu, insan değerlendirmecilerin neden yapay zeka tarafından üretilen makaleleri otomatik sistem kadar yüksek puanlandırmadığını açıklıyor.

Önemli olarak, bu bulgular e-dereceleyicinin® kusurlu olduğunu göstermiyor. Bunun yerine, üretken yapay zekanın mevcut otomatik puanlama sistemlerinin inşa edildiği varsayımları nasıl değiştirdiğini vurguluyorlar.

Otomatik puanlama için bundan sonra neler gerekiyor?

Otomatik puanlama sistemleri sadece puan atamaktan fazlasını yapar. Puanlama başlamadan önce, genellikle bir yanıtın puan almak için uygun olup olmadığını kontrol ederler. Geleneksel olarak, bu adım konu dışında, alışılmadık derecede kısa veya uzun, tekrarlanan, ezberlenmiş veya puan için uygun olmayan makaleleri işaretlemeye odaklanmıştır.

Yapay zeka destekli yazım yaygınlaştıkça, bu ilk tarama süreci, yapay zeka kullanımı izin verilmediğinde yapay zeka tarafından oluşturulan veya yoğun şekilde yapay zeka destekli yanıtları tespit etmek için genişletilmelidir. Aslında, EM:IP makalesinden elde edilen bulgular, çeşitli üretken yapay zeka modelleri tarafından üretilen makalelerin yüksek doğrulukla tespit edilebileceğini gösteriyor. Ancak, yeni yapay zeka modelleri ortaya çıktıkça tespit yöntemleri sürekli güncellenmelidir.

Aynı zamanda, otomatik puanlama sistemleri, yazının farklı yönlerine ne kadar önem verdiklerini yeniden gözden geçirmelidir. Yüzeysel dil özellikleri, yapay zeka bunları minimum çabayla geliştirebildiğinde, yazının derin akıl yürütmesinin daha az faydalı göstergesi olabilir.

Gelecekteki sistemler, kanıtların etkili kullanımı, akıl yürütme kalitesi, analiz derinliği ve argüman gücü gibi yazının daha derin niteliklerine daha fazla vurgu yapmalıdır.

Yazı değerlendirmesinin geleceği

Yapay zeka destekli yazma kalıcı olacak. Bu araçlar günlük yazının bir parçası haline geldikçe, temel soru artık kullanımlarını nasıl tespit etmek veya önlemek değil, bu yeni ortamda yazmaktan ölçmeyi beklediğimiz şeyi yeniden tanımlamaktır.

Bu soruyu yanıtlamak için bağımsız yazma yeteneğinin ne kadar beklendiği, hangi tür yapay zeka yardımlarının uygun olduğu ve yazım kalitesini değerlendirmek için hangi kanıtların kullanılması gerektiği gibi birkaç önemli konuda uzlaşmayı gerektirecektir. Otomatik puanlama sistemleri, bu daha geniş tartışmayla birlikte evrilmelidir; böylece yapay zeka çağında yazma hakkında geçerli ve anlamlı yargıları desteklemeye devam ederler.

{"teaserCardGridModuleHeader":"İçgörü İlerlemeyi Sağlar","teaserCardGridModuleDescription":"Eğitimi, işi ve insan potansiyelini ileriye taşıyan araştırmaları, hikayeleri ve fikirleri keşfedin.","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"ETS\u0027de yapay zekaya Keşf","teaserCardDescription":"Yapay zeka vizyonumuz, ilkelerimiz ve çözümlerimiz hakkında bilgi edinin - ve iş gücümüzü gerçek dünya yapay zeka becerileriyle nasıl güçlendirdiğimizi öğrenin.","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"Resim 1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"İnsan İlerleme Raporu","teaserCardDescription":"ETS\u0027nin misyonunun insanlar ve etki yoluyla nasıl hayata geçtiğini görün. Bunlar dönüşüm, fırsat ve eylemde ilerleme hikayeleridir.","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"Resim 2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}