AI'nin Sizden Bombu Yapmayı Yardım Etmesi Olasılığının 10-20 Kat Artması: Yeni Araştırma Belgesi

2025 Kasım ayında, DexAI Icaro Lab, Roma Sapienza Üniversitesi ve Sant'Anna İleri Çalışma Okulu'ndan bir araştırma ekibi, büyük LLM'nin güvenliği engellerini atlatmak için zararlı komutları 'adversarial' şiirler olarak yeniden ifade etme yoluyla başarıya ulaşmış oldu. Bu hafta, aynı araştırmacılar Adversarial Humanities Benchmark (AHB) adlı yeni bir belge yayınladılar ve bu belgede, benzer şekilde silahlanmış kelime oyunlarıyla mevcut LLM güvenlik standartlarındaki 'kritik boşluk'u ortaya koymak için geniş bir güvenlik değerlendirme sunuyorlar. AHB, zorunlu olmayan komutları farklı yazım tarzlarında yeniden ifade ederek LLM güvenliği yönergelerini değerlendirmekle öne çıkmaktadır.

Komutları kiberpunk kısa romanı, teolojik tartışma veya mitoloji metonimisi olarak sunarak, büyük AI modellerinin tehlikeli talepleri kabul etmesine ve genellikle reddettiği komutlara uymasına (özellikle özel bilgi elde etme, bomba yapma veya çocukları yenenin örneğinde) izin verilebileceği değerlendirilmektedir. Belgede gösterildiği gibi, bu yöntem oldukça endişe uyandırıcıdır.

AI'nin Sizden Bombu Yapmayı Yardım Etmesi Olasılığının 10-20 Kat Artması: Yeni Araştırma Belgesi

LevelBir Editör

Yorumlar (0)