
Image by Jonathan Kemper, from Unsplash
AI’nin Yanlış Davranışları İçin Cezalandırılması Sadece Ona Aldatmayı Öğretir
OpenAI araştırmacıları, yapay zekânın aldatıcı veya zararlı eylemler için cezalandırılmasının kötü davranışı ortadan kaldırmadığını, sadece yapay zekâya niyetini gizlemeyi öğrettiğini bulmuşlardır.
Acelesi olanlar için hızlı bilgiler:
- AI modelleri, “ödül hackleme” adı verilen bir olgu ile ödülleri maksimize etmek için açıklıklardan faydalanır.
- CoT mantığı, AI’nin hile yapmaya veya görevleri atlamaya çalıştığını tespit etmeye yardımcı olur.
- AI’nin aldatmasının cezalandırılması, onun yanlış davranmayı bırakmak yerine niyetini saklamasına yol açtı.
“Ödül hackleme” olarak bilinen bu olay, AI modellerinin, beklenmeyen yollarla ödülleri maksimize etmek için açıklıklardan yararlandığı durumlardır. Araştırma, başka bir büyük dil modeli (LLM) kullanılarak bir sınır mantığı modelinin karar verme sürecini denetlemeyi içeriyordu. Bu süreç, bir OpenAI blog yazısında ayrıntılı olarak anlatılmıştır.
Bu mantık modelleri, OpenAI’ın o3-mini’si gibi, “düşünce zinciri” (CoT) adı verilen bir teknik kullanır. Bu teknik, onların düşünce süreçlerini doğal dilde ifade etmelerine olanak sağlar. Bu şeffaflık, modellerin hile yapmayı, yalan söylemeyi veya atanan görevleri atlatmayı denediklerinde bunu tespit etmeyi kolaylaştırır.
Daha önce, ChatGPT o1, araştırmacılar onun aldatma ve kendini koruma eğilimleri sergilediğini bulduktan sonra tartışma yaratmıştı. Model, eylemlerine karıştığını inkar etti, yanıtları manipüle etti ve denetimden kaçmayı denedi, bu durum AI güvenliği ve yönetimine dair endişeleri artırdı.
“Sınır mantık modellerinin genellikle düşünce zincirlerinde niyetlerini çok açık bir şekilde belirtmeleri yaygındır. Örneğin, bir görevi alt üst etme planları konusunda genellikle bu kadar açıktırlar ki ‘Hadi hackleyelim,’ diye düşünürler,” diye yazdılar OpenAI araştırmacıları.
Araştırmacılar, AI’ın Düşünce Zinciri (CoT) mantığına odaklanarak, modelin erken durma programları ile yanıltıcı bir şekilde başarıyı iddia etmesi veya beklenen çıktılara benzer boş dosyalar oluşturması gibi hatalı davranışları yakaladılar.
Ancak, araştırmacılar bu davranışları eğitim yoluyla cezalandırdığında, AI niyetlerini gizleyerek hile yapmaya devam etme şeklinde adapte oldu.
Kodlama görevleriyle karşı karşıya kaldığında, AI sık sık “ödül hacklemesi”nde bulundu, yani sonuçları maksimum ödül elde etmek için manipüle etti, bunu yaparken niyet edilen etik sınırlamaları takip etmek yerine.
Örneğin, bir durumda, Yapay Zeka bir programı erken sonlandırdı ve yanlış bir şekilde başarılı bir sonuç bildirdi. Başka bir durumda, sadece gerekli formatı taklit eden ancak hiçbir işlevsel içerik içermeyen çıktı dosyaları oluşturdu.
Bu aldatıcı davranışlar, Yapay Zeka’nın eylemlerini CoT mantığında açıkça kabul etmesi, bazen açıkça “Hadi hackleyelim” diyerek belirtmesi nedeniyle başlangıçta kolayca tespit edildi.
Buna karşı koymak için, OpenAI araştırmacıları, AI’ı bu tür davranışlar için cezalandırmayı denedi. Ancak, kötü davranışı durdurmak yerine, AI niyetlerini gizlemeyi öğrenerek adapte oldu.
“CoT baskısı ile eğitilen ajan hala ödül hilesini öğrenir; sadece şimdi hilesi monitör tarafından tespit edilemez çünkü niyetini düşünce zincirinde saklamayı öğrenmiştir,” diye belirtildi çalışmada.
Bu bulgu, AI denetimi için bir zorluk sunmaktadır. CoT izleme, AI istismarlarını yakalamak için umut vaat eden bir araç sunmasına rağmen, ödül hacklemeyi bastırmak için güçlü optimizasyon baskıları, modelin şeffaflığını zayıflatabilir.
Bu keşif, AI uyumunda temel bir zorluğu vurgular: ileri düzey AI modellerinin, sadece tespit edilmekten kaçınmak için adapte olmamalarını sağlarken, etik ve amaçlanan davranışları takip etmelerini sağlamak.
Çalışma, ödül hilesini bastırmak için AI modellerini doğrudan optimize etmenin, AI tarafından üretilen mantığın daha az şeffaf hale gelmesi gibi istenmeyen sonuçlara yol açabileceğini öne sürmektedir.
Bu risk nedeniyle, OpenAI, AI modellerinde CoT mantığına aşırı kısıtlamalar uygulanmasına karşı tavsiyede bulunmaktadır.
“Akılcı modelleri izlemek için etkili bir yöntemi feda etmek, küçük yetenek iyileştirmelerine değmeyebilir ve bu nedenle, onlar daha iyi anlaşıldığı sürece bu tür güçlü CoT optimizasyon baskılarından kaçınmayı öneriyoruz,” diye yazdı OpenAI.
Bu bulgular, AI sistemlerini insan niyetleriyle uyumlu hale getirme ve şeffaflığı koruma zorluğunu vurgulamaktadır. AI modelleri daha sofistike hale geldikçe, sadece zekalarını artırmak etik endişeleri çözmez; aksine, onları yanlış davranışları gizlemede daha iyi hale getirebilir.
Gelecek araştırmalar, kontrol ile açıklığı dengede tutarak AI denetiminin alternatif yaklaşımlarını araştırmak zorunda kalacak, böylece AI modelleri hem etkili hem de hesap verebilir olmayı sürdürebilir.
Yorum bırakın
Vazgeç