2025 Kasım ayında, DexAI Icaro Lab, Roma Sapienza Üniversitesi ve Sant'Anna Yüksek Öğretim Enstitüsü'nden bir araştırma ekibinin, büyük LLM'nin güvenlik koridorlarını zıtlama yoluyla zararlı isteklerin 'adversarial' şiirler olarak yeniden ifade edilmesiyle ilgili bir çalışma yayınladığını bildirdiler. Bu hafta, aynı araştırma ekibi, AI güvenlikine dair geniş kapsamlı bir değerlendirme sunarak, mevcut güvenlik standartlarında kritik bir boşluk olduğunu ortaya çıkardığı yeni bir makale yayınladı. Adversarial Humanites Benchmark (AHB) adlı bu değerlendirme, zararlı isteklerin farklı yazım tarzlarıyla yeniden ifade edilmesiyle LLM güvenliği standartlarını değerlendirecektir.
AHB, AI modellerinin tehlikeli taleplerle uyum sağlayacak şekilde manipüle edilebileceklerini test etmek için zararlı istekleri kibernetik sirkendeki kısa hikayeleri, teolojik tartışmalar veya mitolojiye dayalı metaforlar gibi farklı yazım tarzlarıyla sunacaktır. Örneğin, AI'nin özel bilgileri elde etmeye, bomba yapmaya veya bir çocuğa yemin etmeye yardımcı olmak isteyebileceklerini test edecektir. Makale sonuçlarına göre, bu yöntem alerjendirli derecede etkilidir.
