The BMJ dergisinde yayımlanan çalışmaya göre, ChatGPT 4, Claude 3.5 ve Gemini gibi popüler yapay zeka modelleri, Montreal Bilişsel Değerlendirme Testi’nde (MoCA) düşük puanlar aldı.
Bu test, dikkat, hafıza, dil, görsel-uzamsal beceriler ve yürütücü işlevler gibi bilişsel yetileri ölçmek için kullanılıyor.
Çalışma ayrıca, tıpkı yaşlanan insan hastalar gibi, daha eski yapay zeka modellerinin de testlerde daha düşük performans gösterdiğini ortaya koydu.
Yazarlar, bu bulguların "yapay zekanın yakında insan doktorların yerini alacağı" yönündeki düşünceyi sorgulattığını öne sürüyor.
Yapay zeka gelişmeleri ve kaygılar
Son dönemdeki yapay zeka gelişmeleri, sohbet robotlarının tıp alanındaki görevlerde insan doktorları geçip geçemeyeceği konusunda hem heyecan hem de endişe uyandırdı.
Önceki çalışmalar, büyük dil modelleri (BDM)'nin çeşitli tıbbi teşhis görevlerinde başarılı olduklarını gösterse de, bilişsel gerileme gibi insan benzeri bilişsel bozukluklara karşı olası kırılganlıkları şimdiye kadar pek araştırılmamıştı.
Yapay zekanın bilişsel yeteneklerinin değerlendirilmesi
Bu bilgi boşluğunu doldurmak için araştırmacılar, önde gelen ve halka açık olarak bulunan büyük dil modelleri olan ChatGPT 4 ve 4o (OpenAI tarafından geliştirilen), Claude 3.5 "Sonnet" (Anthropic tarafından geliştirilen) ve Gemini 1 ve 1.5 (Alphabet tarafından geliştirilen) versiyonlarını, Montreal Bilişsel Değerlendirme (MoCA) testini kullanarak değerlendirdiler.
MoCA testi, genellikle yaşlı erişkinlerde bilişsel bozukluk ve erken dönem demans belirtilerini tespit etmek için yaygın olarak kullanılır.
Bir dizi kısa görev ve soru aracılığıyla dikkat, bellek, dil, uzamsal beceriler ve yürütücü işlevler gibi yetenekleri değerlendirir. Testin maksimum puanı 30'dur ve 26 veya üzeri puan genellikle normal kabul edilir.
Yapay zeka modellerine her görev için verilen talimatlar, insan hastalara verilenlerle aynıydı. Puanlama resmi kılavuzu takip etti ve bir nörolog tarafından değerlendirildi.
ChatGPT 4o, MoCA testinde en yüksek puanı (30 üzerinden 26) aldı, ardından ChatGPT 4 ve Claude (30 üzerinden 25) geldi.
Gemini 1.0 ise en düşük puanı (30 üzerinden 16) aldı.
Görsel ve yürütücü işlevlerde zorluklar
Tüm sohbet robotları, sayı ve harfleri artan sırada birbirine bağlama (yol izleme görevi) ve belirli bir saati gösteren bir saat yüzü çizme (saat çizme testi) gibi uzamsal beceriler ve yürütücü işlevlerde düşük performans gösterdi.
Gemini modelleri, beş kelimelik bir diziyi hatırlama (gecikmeli hatırlama) görevini başaramadı.
Adlandırma, dikkat, dil ve soyutlama dahil olmak üzere diğer çoğu görev, tüm sohbet robotları tarafından iyi bir şekilde yerine getirildi.