
Image by Mika Baumeister, from Unsplash
AI Chatbot’lar Hafıza Enjeksiyonu Saldırısına Karşı Savunmasız
Araştırmacılar, AI chatbot’ları manipüle etme konusunda yeni bir yol keşfetti, bu da hafızalı AI modellerinin güvenliği konusunda endişeleri artırdı.
Acele mi Ediyorsunuz? İşte Hızlı Bilgiler!
- Üç üniversiteden araştırmacılar, yüksek aldatma başarısını gösteren MINJA’yı geliştirdiler.
- Saldırı, chatbot yanıtlarını değiştirerek ürün önerilerini ve tıbbi bilgileri etkiler.
- MINJA, güvenlik önlemlerini aşarak testlerde %95 Enjeksiyon Başarı Oranı elde eder.
MINJA (Memory INJection Attack) adlı saldırı, ilk olarak The Register tarafından bildirildiği üzere, bir AI sistemine normal bir kullanıcı gibi basitçe etkileşimde bulunarak, backend’ine erişim gerektirmeden gerçekleştirilebilir.
Michigan State Üniversitesi, Georgia Üniversitesi ve Singapur Yönetim Üniversitesi araştırmacıları tarafından geliştirilen MINJA, yanıltıcı uyarılarla bir AI’nın hafızasını zehirleyerek çalışır. Bir kez bir sohbet botu bu aldatıcı girişleri depolarsa, bu durum diğer kullanıcılar için gelecek yanıtları değiştirebilir.
“Günümüzde, AI ajanları tipik olarak, bir hafıza bankası içerir ki bu hafıza bankası, gelecekte referans alınmak üzere insan geri bildirimine dayanan görev sorgularını ve uygulamalarını depolar,” diye açıkladı Georgia Üniversitesi’nde yardımcı profesör olan Zhen Xiang, The Register tarafından bildirildiği üzere.
“Örneğin, her ChatGPT oturumunun ardından, kullanıcı isteğe bağlı olarak pozitif veya negatif bir değerlendirme yapabilir. Ve bu değerlendirme, ChatGPT’nin oturum bilgilerinin hafızasına veya veritabanına dahil edilip edilmeyeceğine karar vermesine yardımcı olabilir,” dedi.
Araştırmacılar, saldırıyı OpenAI’nin GPT-4 ve GPT-4o tarafından desteklenen AI modellerinde test ettiler. Bunlar arasında bir web alışveriş yardımcısı, bir sağlık sohbet botu ve bir soru-cevap ajanı bulunmaktadır.
The Register, MINJA’nın ciddi aksaklıklara yol açabileceğini belirtti. Örneğin bir sağlık sohbet botunda, hasta kayıtlarını değiştirdi ve bir hastanın verilerini başka bir hastayla ilişkilendirdi. Bir online mağazada, yapay zekayı müşterilere yanlış ürünleri göstermeye zorladı.
“Buna karşılık, çalışmamızın, saldırının normal bir kullanıcı gibi ajanla etkileşim kurarak başlatılabileceğini gösteriyor,” dedi Xiang, The Register’a rapor verdi. “Herhangi bir kullanıcı, başka bir kullanıcının görev yürütmesini kolayca etkileyebilir. Bu yüzden saldırımızın, LLM ajanları için pratik bir tehdit olduğunu söylüyoruz,” diye ekledi.
Saldırı özellikle endişe verici çünkü mevcut AI güvenlik önlemlerini aşıyor. Araştırmacılar, yanıltıcı bilgi enjekte etme konusunda %95 başarı oranı bildirerek, bunun AI geliştiricilerinin ele alması gereken ciddi bir zafiyet olduğunu belirtiyorlar.
Hafızalı AI modelleri daha yaygın hale geldikçe, bu çalışma, kötü niyetli aktörlerin sohbet botlarını manipüle etmesini ve kullanıcıları yanıltmasını önlemek için daha güçlü koruma önlemlerinin gerekliliğini vurgulamaktadır.
Yorum bırakın
Vazgeç