Harvard, Ücretsiz Büyük Ölçekli Yapay Zeka Eğitim Veritabanını Yayınladı
Harvard Üniversitesi, yeni programı Kurumsal Veri İnisiyatifi (IDI) tarafından oluşturulan, neredeyse 1 milyon kamu malı kitabın büyük bir veri setini AI eğitimi için ücretsiz olarak yayınlayacağını duyurdu.
Acele mi Ediyorsunuz? İşte Hızlı Bilgiler!
- Harvard, Google Books ile işbirliği yaparak, AI modellerini ücretsiz eğitmek için neredeyse 1 milyon kamuya açık kitap içeren bir veri seti yayınladı
- Veri seti, Microsoft ve OpenAI tarafından desteklenen yeni Kurumsal Veri Girişimi tarafından oluşturuldu
- Küçük organizasyonlar, AI alanında daha adil bir şekilde rekabet etmek için bu veri koleksiyonundan faydalanabilir
Wired’a göre, veri seti, artık telif hakkı tarafından korunmayan ve genellikle yazarın ölümünden veya yayınlanmasından 70 yıl sonra sona eren Google Kitaplar tarafından taranan yayınları içerir. Veri toplama, Charles Dickens, Shakespeare ve Dante gibi ünlü yazarların yaratıcı yazılarından ders kitaplarına ve sözlüklere kadar çeşitli formatları ve türleri kapsar.
IDI’nin icra direktörü Greg Leppert’e göre, hedef “sahayı dengelemek” ve daha fazla kuruma ve küçük projenin değerli araçlarla AI yarışına katılmasını sağlamaktır. Veri setinin boyutu, Meta’nın Llama gibi popüler AI modellerini eğitmekte kullanılanlardan daha büyüktür. “Bunu biraz, Linux’un dünyanın büyük bir bölümü için temel bir işletim sistemi haline gelmesi gibi düşünüyorum,” diye belirtti Leppert.
IDI resmi olarak bugün başlatıldı ve OpenAI ve Microsoft tarafından finansman ve teşvik edici sözlerle desteklendi. İnisiyatif, devlet kurumları ve kütüphaneler gibi bilgi kurumlarıyla çalışmayı ve “yapay zeka için veri koleksiyonları ve en iyi uygulamalar geliştirmeyi” hedefliyor. Yeni veri setinin nasıl indirileceği hakkındaki detaylar açıklanmadı, sadece dağıtımı konusunda Google’ın yardımcı olacağı belirtildi.
Bu yeni veri toplama, birçok AI şirketinin bu yıl karşılaştığı telif hakkı ihlali iddialarını önlemeli. “Büyük kamuya açık veri setleri, AI şirketlerinin modellerini eğitmek için telif hakkı olan çalışmaları kazımayı haklı çıkarmak için kullandıkları ‘zorunluluk savunmasını’ daha da zayıflatıyor” dedi. Ed Newton-Rex, eski bir Stability AI yöneticisi şimdi Wired’a etik bir şekilde eğitilmiş AI araçlarını sertifikalandıran bir kar amacı gütmeyen kuruluşu yönetiyor.
Newton-Rex, son zamanlarda AI modellerini eğitmek için teknoloji şirketlerinin veri kazımasını durdurmayı hedefleyen bir dilekçeyi yönetti.
Yorum bırakın
Vazgeç