MIT, LLM’lerin Kendi Gerçeklik Anlayışlarını Geliştirebileceğini Ortaya Koydu

Image created with Openart.ai

MIT, LLM’lerin Kendi Gerçeklik Anlayışlarını Geliştirebileceğini Ortaya Koydu

Okuma süresi: 2 dk.

MIT’deki araştırmacılar, büyük dil modellerinin (LLM’ler) kendi gerçeklik temsillerini oluşturabildiğini keşfetmiştir. Bir LLM’yi bulmacalar üzerinde eğitmek, modelin açık talimatlara gerek duymadan bulmacanın ortamını kendi başına anladığını ortaya koymuştur. Araştırma, dün MIT News tarafından rapor edildi.

Bunu test etmek için, araştırmacılar Karel bulmacaları kullandılar – bu bulmacalar, simüle edilmiş bir ortamda bir robota talimatlar verme görevlerini içerir. Modeli 1 milyondan fazla bu tür bulmaca üzerinde eğittikten sonra, LLM’nin sadece doğru talimatları oluşturma konusunda geliştiğini değil, aynı zamanda bulmaca ortamının iç simülasyonunu geliştirmiş gibi göründüğünü buldular.

Çalışmanın baş yazarı Charles Jin, “çalışma başladığında, dil modeli işe yaramayan rastgele talimatlar oluşturdu. Eğitimi tamamladığımızda, dil modelimiz talimatların %92,4’ünü doğru bir şekilde oluşturdu.” dedi.

“Probing” adı verilen bir makine öğrenme tekniği kullanılarak ortaya çıkarılan bu iç model, robotun talimatlara nasıl yanıt verdiğine dair bir modeli ortaya koyuyor, bu da sözdiziminin ötesinde bir anlama işaret ediyor.

Araştırma, Jin’in deyimiyle, sadece “bir LLM’nin beyninin içine bakmak” için tasarlandı, ancak modelin düşüncelerini etkileme ihtimali vardı.

Jin şöyle açıklıyor, “Araştırma, bir adli analist gibidir: Bu veri yığınını analiste verir ve ‘İşte robotun nasıl hareket ettiği, şimdi veri yığınından robotun hareketlerini bulmaya çalış’ dersiniz. Analist daha sonra size, veri yığınındaki robotla ilgili ne olduğunu bildiğini söyler.’’

Jin şöyle ekliyor: “Ancak veri yığınının aslında ham talimatları kodladığını ve analistin bu talimatları çıkarmanın ve onlara uygun şekilde takip etmenin bir yolunu bulduğunu düşünürsek ne olur? O zaman dil modeli talimatların ne anlama geldiğini hiç öğrenmemiş olur.”

Bunu test etmek için, araştırmacılar “Bizarro World” deneyini gerçekleştirdiler, burada talimatların anlamları tersine çevrildi. Bu senaryoda, prob, değiştirilmiş talimatları yorumlamakta zorlandı, bu da LLM’nin orijinal talimatların kendi semantik anlayışını geliştirdiğini öne sürüyor.

Bu sonuçlar, LLM’lerin sadece sofistike desen eşleştirme makineleri olduğu yaygın görüşü sorgulamaktadır. Bunun yerine, bu modellerin dilin ve temsil ettiği dünyanın daha derin ve daha nüanslı bir anlayış geliştirebileceğini önermektedir.

Bath Üniversitesi’nden bu hafta daha önce yapılan bir çalışma, LLM’lerin dil işleme konusunda üstün olduğunu fakat bağımsız yetenek edinme konusunda zorlandığını gösterdi. Bu, LLM’lerin tahmin edilebilirliği fikrini pekiştirdi. Ancak, MIT araştırması bir karşıt perspektif sunuyor.

MIT sonuçları umut vadeder gibi görünse de, araştırmacılar bazı sınırlılıkları belirtiyorlar. Özellikle Jin, kazanımlarını elde etmek için çok basit bir programlama dili ve nispeten küçük bir model kullandıklarını kabul ediyor.

Sonuç olarak, MIT sonuçları teşvik edici olsa da, araştırmacılar, sonuçların tam anlamıyla ne ifade ettiğini tamamen anlamak için daha fazla araştırma yapılması gerektiği konusunda uyarıyorlar.

Bu makaleyi beğendiniz mi?
Puan verin!
Hiç sevmedim Pek beğenmedim Fena değildi Gayet iyiydi! Bayıldım!
0 0 kullanıcı tarafından oy verildi
Başlık
Yorum
Geri bildiriminiz için teşekkür ederiz
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Yorum bırakın

Devamını oku...