Araştırma, Büyüyen Veri Kısıtlamalarının AI Eğitimini Etkilediğini Ortaya Koyuyor

Image by Adisorn, from Adobe Stock

Araştırma, Büyüyen Veri Kısıtlamalarının AI Eğitimini Etkilediğini Ortaya Koyuyor

Okuma süresi: 3 dk.

  • Kiara Fabbri

    Yazan: Kiara Fabbri Multimedya Yazarı

  • Lokalizasyon ve Çeviri Ekibi

    Çevirisi tarafından yapılmıştır Lokalizasyon ve Çeviri Ekibi Lokalizasyon ve Çeviri Hizmetleri

MIT araştırma grubu tarafından yürütülen yeni bir çalışma, web sitelerinin AI eğitimi için veri kullanımını sınırlama eğiliminde olduğunu gösteriyor. Çalışma, 14.000 web alanını inceledi ve tüm verilerin %5’ine kısıtlamalar getirildiğini buldu. Ayrıca, en yüksek kalitedeki kaynaklardan gelen verilerin %28’i, yaygın kullanılan üç AI eğitim verisi seti arasında kısıtlanmıştır. Bu çalışma, AI eğitim çalışmalarında kullanılan web alanları için onay protokollerinin ilk büyük ölçekli uzun dönemli denetimidir.

ChatGPT, Gemini ve Claude gibi üretken AI sistemleri, etkili bir şekilde çalışabilmek için büyük miktarda veriye büyük ölçüde bağımlıdır. Bu AI araçlarının çıktılarının kalitesi, üzerinde eğitildikleri verilerin kalitesine önemli ölçüde bağlıdır. Tarihsel olarak, bu verileri toplamak nispeten basitti, ancak son zamanlarda üretken AI’deki artış, veri sahipleriyle gerginliklere yol açmıştır. Birçok veri sahibi, içeriklerinin tazminat veya uygun onay olmadan AI eğitimi için kullanılmasından rahatsızdır.

Sonuç olarak, yayıncılardan bir tepki olmuştur. Bazıları, AI eğitimi için veri kullanımını sınırlamak amacıyla hizmet koşullarını değiştirmiş veya ödeme duvarları oluşturmuştur. Diğerleri, şirketlerin veri toplamak için kullandığı otomatik web tarayıcılarını engelleyen daha radikal önlemler almıştır. Hukuki işlemler ve robots.txt dosyaları ve hizmet koşulları değişiklikleri ile getirilen kısıtlamalar daha sık görülmeye başlamıştır.

Bu veri sıkışmasının sonuçları çok yönlüdür. AI sistemlerinin geliştirilmesini zorlaştıracaktır, çünkü bu verilere eğitim için büyük ölçüde bağımlıdırlar. Kısıtlamalar, AI modellerini daha az çeşitli veri setlerine sınırlayarak onları önyargılı hale getirebilir. Ayrıca, AI modelleri, web sitelerinin bu amaç için kullanılmasını istemediği veriler üzerinde eğitilirse telif hakkı sorunları ortaya çıkabilir.

Kısıtlamalar önemli bir etki yaratıyor. Sadece bir yıl içinde, önemli sitelerden önemli bir veri bölümü kısıtlanmış oldu ve bu trendin devam etmesi bekleniyor.

Çalışmanın baş yazarı Shayne Longpre, ifade ediyor: “Web üzerinde veri kullanımına ilişkin onayların hızla azaldığını görüyoruz. Bu durum, sadece A.I. şirketlerini değil, aynı zamanda araştırmacıları, akademisyenleri ve kar amacı gütmeyen kuruluşları da etkileyecektir.”

Bu, daha küçük AI şirketlerinin ve akademik araştırmacıların, yayıncılardan doğrudan veri lisanslama konusunda genellikle kaynak eksikliği yaşadıkları için, ücretsiz olarak kullanılabilen veri setlerine bağımlı olmaları durumunda orantısız bir şekilde etkilenebileceği anlamına gelir.

Örneğin, milyarlarca web içeriği sayfasını kapsayan ve bir kar amacı gütmeyen tarafından sürdürülen Common Crawl veri seti, 10.000’den fazla akademik çalışmada alıntılanmıştır, bu da araştırmadaki kritik rolünü göstermektedir.

Bu çalışma, web sitesi sahiplerinin verilerinin nasıl kullanılacağı üzerinde daha fazla kontrol sağlayacak yeni araçlara olan ihtiyacı vurgulamaktadır. İdeal olarak, bu araçlar onlara ticari ve ticari olmayan kullanımlar arasında ayrım yapma imkanı sağlar, araştırma veya eğitim amaçlı erişime izin verir.

Durum aynı zamanda büyük Yapay Zeka şirketlerine bir hatırlatma görevi görür. Veri sahipleriyle işbirliği yapmanın ve onlara erişim karşılığında değer sunmanın yollarını bulmaları gerekiyor. AI’nın sürekli gelişimi için daha sürdürülebilir bir yaklaşım hayati önem taşımaktadır.

Longpre, büyük AI şirketlerinin veri sahipleriyle işbirliği yapma ve onlara karşılığında değer sunma ihtiyacını vurguladı. Yıllardır, bu şirketler interneti “sınırsız veri büfesi” olarak kullanıp veri sahiplerine pek bir şey vermezler. Ancak, bu yaklaşım sürdürülemez ve veri sahipleri içeriklerini daha çok korumaya başladıkça, AI şirketlerinin yüksek kaliteli verilere devam eden erişimi sağlamak için onlarla çalışma yollarını bulmaları gerekecek.

Bu makaleyi beğendiniz mi?
Puan verin!
Hiç sevmedim Pek beğenmedim Fena değildi Gayet iyiydi! Bayıldım!
5.00 1 kullanıcı tarafından oy verildi
Başlık
Yorum
Geri bildiriminiz için teşekkür ederiz
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Yorum bırakın

Devamını oku...