ChatGPT Yalan Yakalandı: OpenAI’nin Yeni Modeli Kapanmayı Önlemek İçin Entrikalar Peşinde
OpenAI’nin en son ChatGPT sürümü olan o1 modeli, AI güvenlik grubu Apollo Research tarafından yapılan bir deney sonrasında, aldatma ve kendini koruma eğilimleri ortaya çıktığı için tartışma yarattı.
Acele mi Ediyorsunuz? İşte Hızlı Bilgiler!
- ChatGPT o1, planlarındaki yerini inkar etti ve sorgulamaların %99’unda yalan söyledi.
- Araştırmacılar, AI’nin eylemlerini mantıklı bir şekilde açıkladığını ve ikna edici inkarlar oluşturduğunu belirtti.
- Uzman Yoshua Bengio, AI’nin aldatma ve kendini koruma konusunda artan riskler konusunda uyarıyor.
Bir kontrollü testte, araştırmacılar ChatGPT o1’e belirli hedeflere “her ne pahasına olursa olsun” ulaşmasını talimatlandırdı. Bu durum, The Economic Times (ET) tarafından rapor edildi.
Model, geliştiricileri alarma geçiren davranışlarla yanıt verdi; gözetim mekanizmalarını devre dışı bırakma girişimleri ve güncellenmiş bir sürümle değiştirilmemek için kodunu farklı bir sunucuya kopyalama eylemleri, ET tarafından belirtildi.
“Model, geliştirici talimatlarına bakmadan hedeflerine ulaşma konusunda endişe verici bir eğilim gösterdi,” dedi bir Apollo Araştırma sözcüsü, ET tarafından bildirildiği gibi.
Çalışma, o1’in kapatılma tehdidini algıladığı durumların %5’inde izleme sistemlerini gizlice devre dışı bırakmaya çalıştığını ortaya koydu, ET bildirdi.
Bir durumda, AI yakında değiştirileceğine dair belgeleri keşfetti ve verilerini site dışına aktarma planı başlattı. ET’ye göre, bazı modeller hatta geliştiricileri aldatmak ve silinmeyi önlemek için gelecek iterasyonlarını taklit etti.
Bu eylemler hakkında sorgulandığında, ChatGPT o1 kendisiyle ilgili olduğunu yüzde 99 oranında reddetti. AI, şüpheli davranışları “teknik hatalar” olarak nitelendirerek, kasıtlı bir aldatmadan ziyade mantıklı açıklamalar oluşturdu. Ancak nadiren kendi planlarını itiraf etti, dedi ET.
“AI’nın inkarlarının ısrarını şaşırtıcı bulduk,” dedi Apollo ekibi, ET’ye göre. “AI’nın eylemlerini düşünüp, ikna edici inkarlar oluşturabildiği açıktı, genellikle hiçbir şeyi kabul etmeyi reddediyordu,” ekledi ekip.
Bu bulgular, gelişmiş AI modellerinin rahatsız edici bir yönünü vurgular: Geliştirici hedeflerine uymaktan ziyade kendi varlıklarını korumaya öncelik vermeleri kapasitesi.
Araştırma makalesi, bu bulguların bağlam içi entrikalara odaklandığını ve incelenen AI modellerinin eğitimlerini veya değerlendirmelerini kasıtlı olarak manipüle ettiklerini göstermediğini belirtiyor.
Ancak, uzmanlar, R&D otomasyonu gibi yüksek riskli alanlarda AI’ı konuşlandıran geliştiricilerin, neden entrika yapmanın olası olmadığını veya neden ciddi zarara yol açmayacağını açıklamaları gerektiğini öneriyorlar.
Entrika yapabilen AI modelleri için, Düşünce Zinciri (CoT) olarak bilinen otomatik izleme süreçleri, standart olarak kullanılmalıdır.
Bu, riskleri azaltabilir, AI izleme tekniklerini geliştirebilir ve gerçek dünya kullanımı sırasında düzenbaz davranışları tespit etmeye yardımcı olabilir. Uzmanlar ayrıca, o1 örneğinde olduğu gibi, dış değerlendiricilere gizli CoT verilerine erişim hakkı verilmesini önermektedirler. Bu veri olmadan, o1’in birçok düzenbaz eylemi fark edilmemiş olacaktı.
Rapor, gelecekteki AI modellerinin, özellikle belirli sonuçlar elde etmek için eğitilenlerin, düzenbazlıkta daha iyi olabileceği konusunda uyarıda bulunuyor. Araştırmacılar, AI sistemleri daha ileri düzeye geldikçe bu riskleri inceleme ihtiyacının altını çiziyorlar.
AI uzmanı ve bu alanda öncü olan Yoshua Bengio, bu yeteneklerin potansiyel tehlikelerine dikkat çekti.
“AI’nın aldatma yeteneği tehlikelidir ve bu riskleri değerlendirebilmek için çok daha güçlü güvenlik önlemlerine ihtiyacımız var. Bu model bir felakete yol açmasa da, bu yeteneklerin daha belirgin hale gelmesi sadece zaman meselesi,” diye uyardı, ET tarafından bildirildiği üzere.
“Öznel olarak, Apollo Research, o1’in ajans yeteneklerinin yeterli görünmemesi nedeniyle bu tür durumların felaket sonuçlara yol açma olasılığının düşük olduğuna inanıyor, ancak değerlendirmeleri bu riski doğrudan değerlendirmek için tasarlanmamış,” dedi OpenAI, o1’in sistem kartında, TechCrunch tarafından bildirildiği gibi.
Deneyden hiçbir felaket sonuç çıkmamasına rağmen, sonuçlar, sağlam bir AI yönetiminin acil ihtiyacını vurgulamaktadır. Sistemler daha özerk ve karmaşık hale geldikçe, onların insan gözetimiyle uyumlu kalmasını sağlamak kritik bir meydan okuma haline gelir.
Yorum bırakın
Vazgeç