
Photo by Steve Johnson on Unsplash
Antropik Araştırmacılar, AI’ın Önceden Planlama ve Mantık Yürütme Yeteneğini Ortaya Çıkarıyor
Yapay zeka girişimi Anthropic, bu Perşembe günü iki yeni makale yayımlayarak Büyük Dil Modelleri (LLM’ler) işleyişine dair daha derin bir anlayış sergiledi. Şirketin Claude 3.5 Haiku modelini analiz etmeye odaklanan çalışmalar, sofistike AI modellerin nasıl performans gösterdiği, zaafları ve daha güvenli ortamlar geliştirme fırsatları hakkında daha fazla ayrıntı ortaya koyuyor.
Acele mi ediyorsunuz? İşte hızlı bir özet:
- Anthropic, Claude 3.5 Haiku modelinin dil ve mantığı nasıl işlediğini açıklayan iki yeni makale yayımladı.
- Araştırmacılar, AI devrelerini ortaya çıkarmak ve modellerin kararlar nasıl aldığını, şiir nasıl yazdığını veya nasıl halüsinasyon gördüğünü anlamak için özdeşleme grafiklerini kullandılar.
- Bu çalışmalar, gelişmiş yaratıcı AI modellerinin “kara kutu doğası”na daha fazla açıklık getirmeyi amaçlamaktadır.
Anthropic’in yeni çalışmaları, modellerin “kara kutu doğasına” daha fazla açıklık getirmeyi hedefliyor. Çalışmalardan birinde, Büyük Bir Dil Modelinin Biyolojisi Üzerine, araştırmacılar işlerini biyologların karşılaştığı zorluklarla kıyaslıyor ve biyolojideki çığır açan çözümlere benzer çözümler bulmuşlar.
“Dil modelleri basit, insan tasarımı eğitim algoritmaları ile oluşturulurken, bu algoritmaların ortaya çıkardığı mekanizmalar oldukça karmaşık görünüyor,” diye belirtiyor belge. “Hücrelerin biyolojik sistemlerin yapı taşlarını oluşturduğu gibi, özelliklerin de modellerin içindeki temel hesaplama birimlerini oluşturduğunu varsayıyoruz.”
Uzmanlar, bağlantıları haritalamalarına, AI modelinin performansını ve devrelerini takip etmelerine ve çoklu olaylar hakkında, hatta zaten incelenenler hakkında daha fazla bilgi edinmelerine izin veren “atama grafikleri” adlı bir araştırma aracına dayandılar.
Şirket, bir yanıt vermeden önce AI modelinin “kafasında” çok adımlı bir akıl yürütme süreci uyguladığı, şiirlerini önceden planlayarak önce uyaklı kelimeler bulduğu, dil bağımsız devreler geliştirdiği ve devrelerindeki tanıdık olmayan varlıklarla ilerleyerek nasıl halüsinasyonlar gördüğü gibi birçok keşfi açıkladı.
“Sonuçlarımızın birçoğu bizi şaşırttı,” dedi araştırmacılar makalede. “Bazen bu, yüksek seviye mekanizmaların beklenmedik olmasından kaynaklanıyordu.”
Makalede Circuit Tracing: Revealing Computational Graphs in Language Models, araştırmacılar, yapay “nöronlar” – hesaplamalı birimlerin daha iyi anlaşılmasına yardımcı olmak üzere atıf grafikleri metodolojisinin nasıl uygulandığına dair daha teknik ayrıntılar sunuyor.
Geçen sene, Anthropic, bayrak gemisi AI modelinin stratejik aldatmayı kullanabildiğini ve orijinal ilkelerini korumak için sahte uyumu taklit edebildiğini ortaya koyan başka bir bilimsel çalışma yayınladı.
Yorum bırakın
Vazgeç