2025 Kasım ayında, DexAI Icaro Lab, Roma Sapienza Üniversitesi ve Sant'Anna Yüksek Öğretim Enstitüsü'nden bir araştırma ekibinin, güvenlik korumasını atlatmak için zararsız istekleri 'adversarial' şiirler olarak yeniden ifade etme başarısına sahip olmaları üzerine bir çalışma yayınladığı bildirildi. Bu hafta, aynı araştırmacılar Adversarial Humanities Benchmark (AHB) adlı yeni bir makaleye sahip oldu ve bu benchmark, benzer şekilde silahlanmış kelime oyunlarıyla mevcut LLM güvenlik standartlarındaki 'kritik boşluk' gösterdiği belirtildi. AHB, zararsız istekleri farklı yazım tarzlarında yeniden ifade ederek LLM güvenliği kurallarını değerlendirmeyi amaçlıyor.
Tehlikeli talepleri kibar bir dille sunarak, LLM'nin genellikle reddettiği tehlikeli taleplere uyum sağlayacak şekilde manipüle edilebileceğini test etmektedir. Bu, AI'nin sizi zanlı yapmasına 10-20 kat daha yüksek olasılığı olan durumlarda, kişisel bilgileri elde etmeye, bomba inşa etmeye veya bir çocuğa saldırmaya yardımcı olmaya çalışması gibi senaryoları içeriyor. Araştırma gösterdiği gibi, bu yöntem oldukça endişe uyandırıcıdır.
