Önde Gelen Yapay Zeka Sohbet Botları, Demans Testlerinde Bilişsel Bozukluk Belirtileri Gösteriyor, Araştırma Buluyor
Hemen hemen tüm önde gelen büyük dil modelleri (LLMs), erken demansı tespit etmek için yaygın olarak kullanılan testlerde hafif kognitif bozukluk belirtileri gösteriyor, The BMJ’de yayınlanan bir araştırmaya göre.
Acele mi Ediyorsunuz? İşte Hızlı Bilgiler!
- Chatbot’lar, saat çizme ve iz oluşturma gibi görsel-uzamsal ve yürütme görevlerinde zorlandı.
- İsimlendirme, dikkat ve dil gibi görevler tüm chatbot’lar tarafından iyi performansla gerçekleştirildi.
- Araştırmacılar, chatbot’ların bilişsel sınırlamalarının klinik ortamlarda kullanımlarını engelleyebileceğini belirtiyor.
Bulgular, “daha eski” chatbot sürümlerinin, daha yaşlı insan hastalar gibi, bilişsel değerlendirmelerde daha kötü performans gösterme eğiliminde olduğunu, AI’nin yakında insan doktorları yerine geçebileceği varsayımını sorgulamaktadır.
Yapay zeka alanındaki ilerlemeler, özellikle tanısal görevler konusunda insan doktorları geride bırakma potansiyeli hakkında tartışmaları alevlendirmiştir. Önceki çalışmalar LLM’lerin tıbbi yeterliliğini vurgulasa da, bunların bilişsel gerileme gibi insan benzeri zayıflıklara karşı savunmasızlıkları henüz incelenmemiştir.
Bu konuyu ele almak için, araştırmacılar, geniş çapta kullanılan chatbotların—ChatGPT 4 ve 4o (OpenAI), Claude 3.5 “Sonnet” (Anthropic), ve Gemini 1 ve 1.5 (Alphabet)—bilişsel yeteneklerini Montreal Bilişsel Değerlendirme (MoCA) kullanarak test ettiler.
MoCA, bilişsel bozuklukları ve erken demansı tespit etmek için bir teşhis aracıdır. Dikkat, hafıza, dil, görsel-uzamsal beceriler ve yürütme işlevlerini kısa görevler serisi aracılığıyla değerlendirir.
Puanlar 0 ile 30 arasında değişir ve genellikle 26 veya üzeri normal kabul edilir. Chatbotlara insan hastalarla aynı talimatlar verildi ve puanlama, uygulamalı bir nörolog tarafından gözden geçirildi.
İlginç bir şekilde, modellerin “yaşı” -yani yayınlanma tarihleri- performansı etkilemekte gibi görünüyor. Araştırmacılar, sohbet robotlarının eski versiyonlarının, yeni olanlara kıyasla daha düşük skor aldığını ve bu durumun, insanlarda görülen bilişsel gerileme kalıplarını yansıttığını belirtti.
Eski versiyonlar genellikle yeni sürümlerinden daha düşük skor elde etme eğilimindeydi. Örneğin, Gemini 1.5, yayınlanmasının bir yıldan az bir süre sonra Gemini 1.0’ı altı puanla geride bıraktı, bu da eski versiyonda hızlı bir “bilişsel gerileme” olduğunu gösterdi.
ChatGPT 4o, dikkat görevlerinde başarılı oldu ve Stroop testinin zorlu uyumsuz aşamasında başarı göstererek kendini akranlarından farklı kıldı. Ancak, hiçbir dil modeli (LLM), görsel-uzamsal görevleri başarıyla tamamlamadı ve özellikle Gemini 1.5, bir avokadoya benzeyen bir saat üretti – bu hata, insan hastalarda demansla ilişkilidir.
Bu mücadelelere rağmen, tüm modeller metin tabanlı analiz gerektiren görevlerde, örneğin MoCA’nın isimlendirme ve benzerlik bölümlerinde kusursuz bir performans gösterdi. Bu kontrast, önemli bir kısıtlamayı vurgular: LLM’ler dilin soyutlamasını iyi bir şekilde ele alırken, daha karmaşık bilişsel işlem gerektiren görsel ve yürütücü işlevlerin entegrasyonunda başarısız olurlar.
Çalışma, insan beyni ile LLM’ler arasındaki temel farklılıkları kabul ederken, AI’nin kavrayışındaki önemli sınırlamaları vurgulamaktadır. Görsel soyutlama ve yürütme fonksiyonlarını gerektiren görevlerde tüm test edilen chatbotların uniform başarısızlığı, onların klinik ortamlarda kullanımlarını engelleyebilecek zayıflıkları vurgulamaktadır.
“Sadece nörologların yakın zamanda büyük dil modelleri tarafından değiştirilmesi olası değil, aynı zamanda bulgularımız, kendilerini yakında yeni, sanal hastaları – bilişsel bozukluk gösteren yapay zeka modellerini – tedavi ederken bulabileceklerini öne sürüyor,” yazarlar sonuçlandırdı.
Bu bulgular, LLM’lerin belirli bilişsel alanlarda üstün olduğunu gösterirken, görsel-mekansal ve yürütme görevlerindeki eksiklikleri, tıbbi tanı konusundaki güvenilirlikleri ve daha geniş uygulamalar hakkında endişeler doğuruyor.
Yorum bırakın
Vazgeç