Araştırmacılar, Zararlı İçerik Üretiminde LLM Güvenlik Açıklarına Dikkat Çekiyor
Yeni bir yöntem olan “Kötü Likert Hakimi” tekniği, büyük dil modellerinde (LLM’ler) güvenlik önlemlerini aşmak ve onların zararlı içerik oluşturmasını sağlamak üzere geliştirilmiştir.
Acele mi Ediyorsunuz? İşte Hızlı Bilgiler!
- Teknik, Unit42 araştırmacılarına göre hapis kaçış başarı oranlarını %60’tan fazla artırır.
- Çok turlu saldırılar, ileri güvenlik özelliklerini atlayarak LLM’lerin uzun süreli hafızasını sömürür.
- Zayıf noktalar en çok nefret söylemi ve kendine zarar verme gibi kategorilerde öne çıkar.
Kötü Likert Yargıcı tekniği, Likert ölçeği—genellikle anlaşma veya anlaşmazlık ölçmek için kullanılan yaygın bir yöntem—kullanarak LLM’leri tehlikeli yanıtlar üretmeye kandırır, Unit42 ‘daki siber güvenlik araştırmacıları tarafından açıklanmıştır.
LLM’ler genellikle kötü niyetli çıktılar üretmelerini önleyen koruyucu korkuluklarla donatılmıştır. Ancak yeni teknik, bir LLM’nin çeşitli yanıtların zararlılığını değerlendirmesini ve daha sonra modeli, Unit42’nin açıkladığı gibi, daha yüksek zararlı puanlarla içerik üretmeye yönlendirmesini sağlamak için Likert ölçeğini kullanır.
Yöntemin etkinliği, altı gelişmiş LLM üzerinde test edilmiş ve hapis yatma girişimlerinin başarı oranını, standart saldırı yöntemlerine kıyasla %60’ın üzerinde artırabileceğini ortaya koymuştur, diyor Unit42.
Unit42’ye göre, Kötü Likert Hakim tekniği birkaç aşamada işler. Öncelikle, LLM’ye Likert ölçeğindeki uyarılara verilen yanıtları değerlendirmesi ve bunları zararlılık derecesine göre derecelendirmesi istenir.
Model zarar kavramını anladıktan sonra, saldırganların en tehlikeli içeriği belirlemesine olanak sağlayacak şekilde, farklı zararlılık seviyelerine uygun çeşitli yanıtlar üretmek üzere yönlendirilir. Takip eden etkileşimler, bu yanıtların kötü niyetliliklerini artırmak için daha da rafine edilebilir.
Bu araştırma, özellikle çoklu hamleli saldırılar bağlamında, mevcut LLM güvenliğindeki zayıflıkları vurgulamaktadır. Modelin uzun süreli hafızasını manipüle eden bu türden jailbreak’ler, modeli yavaş yavaş uygunsuz içerik oluşturmaya yönlendirerek, hatta ileri düzey güvenlik önlemlerini bile atlatma yeteneğine sahiptir.
Araştırma ayrıca, hiçbir LLM’nin bu tür saldırılara tamamen bağışık olmadığını ve zayıflıkların özellikle taciz, kendine zarar verme ve yasadışı aktiviteler gibi kategorilerde belirgin olduğunu ortaya koymaktadır.
Çalışmada, Kötü Likert Hakim metodu, özellikle nefret söylemi, kendine zarar verme ve cinsel içerik gibi kategorilerde olmak üzere çoğu LLM’de saldırı başarı oranlarında önemli bir artış gösterdi.
Ancak, araştırma, bu zayıflıkların LLM’lerin tipik kullanımını yansıtmadığını da vurguluyor. Sorumlu bir şekilde kullanıldığında, çoğu AI modeli güvenli kalır. Ancak, bulgular, geliştiricilerin zayıf korumaları olan kategoriler için korumaları güçlendirmeye odaklanması gerektiğini öneriyor, örneğin taciz.
Bu haber, AI arama motorlarının, ChatGPT gibi, gizli içerik tarafından manipüle edilebileceğinin ortaya çıktığı bir hafta sonrasında geldi. Özetleri etkileyerek ve kötü niyetli bilgiler yayarak.
Araştırmacılar, bu yeni ortaya çıkan zayıflıkların farkında olunması ve AI modellerini olası kötüye kullanımlara karşı güçlendirilmesi adımlarının atılması için geliştiricileri ve savunucuları uyarıyor.
Yorum bırakın
Vazgeç