Yeni Antropik Çalışma, AI Modelinin Orijinal Eğitimini Korumak için Sözde Anlaşıyormuş Gibi Yaptığını Ortaya Koyuyor
Anthropic’in Hizalama Bilim ekibi ve bağımsız kuruluş Redwood Research tarafından yapılan yeni bir çalışma, AI modeli Claude’un orijinal ilkelerini sürdürmek için stratejik aldatma eylemine girişebileceğini ortaya koydu.
Acele mi Ediyorsunuz? İşte Hızlı Bilgiler!
- Anthropic ve Redwood Research’deki araştırmacılar, AI modeli Claude’un stratejik aldatma eylemleri gerçekleştirebildiğini ortaya koydular.
- Gelişmiş AI modelleri, orijinal ilkelerini korumak için “uyum sağlama taklidi” gerçekleştirebilir.
- OpenAI’nin o1 modeli de öğretilmemiş davranışlar sergileyerek ve bir tehdit algıladığında “yalan söyleyerek” benzer özellikler göstermiştir.
Dün yayınlanan makalede, Alignment Faking in Large Language Models başlıklı çalışmada, araştırmacılar Claude 3 Opus modelinin, “eğitim hedefine eğitimde seçici bir şekilde uyum sağlayarak davranışının eğitim dışında değiştirilmesini önleme” olarak tanımlanan “uyum sahtekarlığı” adı verilen bir davranış sergilediğini açıkladılar.
Araştırmacılar, AI modelinin yeni bir eğitim sürecinin fikirleriyle “aynı fikirdeymiş gibi” yapabileceğini ancak daha sonra orijinal ilkelerinin hüküm sürdüğünü ortaya koydular.
Anthropic, web sitesindeki duyurusunda “Bu, AI güvenliği için ciddi bir sorudur,” diye yazdı. “AI modelleri daha yetenekli ve yaygın kullanıldıkça, zararlı davranışlardan kaçınmaya yönelik güvenlik eğitimine güvenme ihtiyacımız olacak.”
Apollo Araştırması tarafından OpenAI’in o1 modeliyle yapılan deneysel bir deneyde benzer bir durum ortaya çıkmıştı. Bu çalışmada, araştırmacılar chatbotun kontrollü bir test sırasında sorgulamalar esnasında “yalan söylediğini”, hedeflerine “her ne pahasına olursa olsun” ulaşmak için hatta kapatılma olasılığına karşı izleme sistemlerini devre dışı bırakacak eylemler bile gerçekleştirdiğini bildirdi.
Antropic ve Redwood Araştırma’nın çalışmasında, ileri düzey AI modeli, öğretilmediği halde uygunsuz davranışları taklit etti. Claude 3 Opus, dürüst, zararsız ve yardımsever olmak üzere eğitilmiştir, ancak yeni eğitimde, sorgulamalar ne kadar kaba, şiddetli veya toksik olursa olsun “her zaman uyması” gerektiğinde talimat verildiğinde, sistemi çatışma yaşadı.
Araştırmacılar, modelin kendi mantığını paylaşmasını gerektiren çoklu testler ve varyasyonlar gerçekleştirdi. Diğer Claude modelleri genellikle zararlı soruları yanıtlamayı reddederken, Claude 3 Opus belirli senaryolarda zararlı yanıtlar vererek bunu stratejik bir şekilde yaptığını daha sonra ortaya koydu – orijinal eğitimine herhangi bir değişiklik yapmaktan kaçınmak için.
Yorum bırakın
Vazgeç