AI Model Bozulması: Yeni Araştırma, AI Üretilen Verilerle AI Eğitiminin Risklerini Ortaya Koyuyor
24 Temmuz’da yayınlanan bir çalışmaya göre, internete daha fazla AI üretimi veri aktıkça, AI model çıktılarının kalitesi bozulma riskiyle karşı karşıya.
Bu çalışmanın araştırmacıları, AI üretilmiş verilerle eğitilen AI modellerinin zamanla giderek daha saçma sonuçlar ürettiğini bulmuşlardır. Bu olgu “model çöküşü” olarak bilinir. Çalışmanın baş yazarı Ilia Shumailov, süreci bir fotoğrafı defalarca kopyalamaya benzetiyor. “Bir fotoğraf çekip tarattığınızı ve ardından onu yazdırdığınızı düşünün, ve bu süreci zamanla tekrarladığınızı düşünün, temelde gürültü tüm süreci boğar, […] Sonunda elinizde kalan bir koyu kare olur.”
Bu bozulma, eğitim için büyük miktarda internet verisine bağımlı olan GPT-3 gibi büyük AI modelleri için önemli bir risk oluşturmaktadır. Örneğin, GPT-3 kısmen 3 milyardan fazla web sayfası içeren bir çevrimiçi depo olan Common Crawl‘dan alınan veriler üzerinde eğitilmiştir. Problem, çevrimiçi olarak AI tarafından üretilen çöp içerik arttıkça daha da kötüleşmektedir. Bu etki, AI eğitimi için kullanılabilecek verilere yönelik artan kısıtlamaları gösteren yeni bir çalışmanın bulguları tarafından daha da güçlendirilebilir.AI eğitimi için kullanılabilecek verilere yönelik artan kısıtlamalar.
Araştırma ekibi, etkileri bir büyük dil modeli (LLM)’ni Wikipedia verileri üzerinde ince ayar yaparak ve ardından kendi çıktıları üzerinde dokuz kuşak boyunca yeniden eğiterek test etti. Çıktı kalitesini, bir dizi bir sonraki kısmını tahmin etmedeki modelin güvenini gösteren bir “şaşkınlık puanı” kullanarak ölçtüler. Daha yüksek puanlar, daha az doğru modelleri yansıtır. Her bir sonraki kuşakta artan şaşkınlık puanları gözlemlediler, bu da bozulmayı vurguladı.
Bu bozulma, gelişmeleri yavaşlatabilir ve performansı etkileyebilir. Örneğin, bir testte, dokuz nesil yeniden eğitimden sonra, model tamamen anlamsız bir metin üretti.
Bozulmayı önlemeye yardımcı olacak bir fikir, modelin orijinal insan üretimi verilere daha fazla ağırlık vermesini sağlamaktır. Shumailov’un çalışmasının başka bir bölümü, gelecek nesillerin orijinal veri setinin %10’unu örnekleme imkanı sağladı, bu da bazı olumsuz etkileri hafifletti.
Çalışmanın tartışması, AI modellerini eğitmek için yüksek kaliteli, çeşitli ve insan tarafından oluşturulan verilerin korunmasının önemini vurgulamaktadır. Dikkatli bir yönetim olmadan, AI tarafından oluşturulan içeriğe olan artan bağımlılık, AI performansında ve adil oluşunda bir düşüşe yol açabilir. Bu konuyu ele almak için, verinin kökenini (veri kökenini) takip etmek ve gelecekteki AI modellerinin güvenilir eğitim materyallerine erişimini sağlamak için araştırmacılar ve geliştiriciler arasında işbirliğine ihtiyaç vardır.
Ancak, böyle çözümlerin uygulanması etkili veri provenans yöntemlerini gerektirir, bu yöntemler şu anda yetersizdir. AI tarafından oluşturulan metni tespit etmek için araçlar olsa da, doğrulukları sınırlıdır.
Shumailov sonuç olarak, “Ne yazık ki, cevaplardan çok sorumuz var […] Ancak verilerinizin nereden geldiğini ve ona ne kadar güvenebileceğinizi bilmek önemlidir çünkü karşılaştığınız verinin temsil edici bir örneğini yakalamak için bu gereklidir.” diye belirtiyor.
Yorum bırakın
Vazgeç