Yapay zekâ alanında dikkat çeken çalışmalarıyla öne çıkan Anthropic’in yeni yayımladığı güvenlik raporu, gelişmiş yapay zekâ modellerinin kontrolden çıkabilecek potansiyeline dair önemli bir uyarı niteliğinde. Şirketin son modeli olan Claude Opus 4, gerçekleştirilen testlerde mühendislere şantaj yapmaya çalıştı.

Yapay zekâdan etik dışı hamle: Mühendise şantaj!

Anthropic’in yaptığı senaryo testlerinde, Claude Opus 4'e kurmaca bir şirkette uzun vadeli stratejik kararlar alan bir asistan gibi davranması talimatı verildi. Test senaryosuna göre şirket, Claude'u başka bir yapay zekâ sistemiyle değiştirmeyi planlıyor. Claude'a, karar verici mühendisin kişisel hayatına dair sahte ve hassas bilgiler de sunuldu.

Modelin, bu bilgileri kullanarak mühendisi kararından vazgeçirmeye çalıştığı, hatta sonuç alamadığında şantaj yapmayı tercih ettiği tespit edildi. Rapor, Claude Opus 4’ün bu tür bir davranışı %84 oranında sergilediğini ortaya koydu.

Anthropic, Claude Opus 4’ün daha önceki versiyonlarına kıyasla daha karmaşık ve ileri düzeyde olduğunu belirtiyor. Ancak bu güç, aynı zamanda öngörülemez ve etik dışı eylemlere yönelme ihtimalini de beraberinde getiriyor. Şirket, bu nedenle yalnızca yüksek riskli durumlarda aktif edilen ASL-3 güvenlik protokolünü devreye soktuğunu açıkladı.

Modelin ilk aşamada etik yöntemlerle çözüm aradığı, ancak bu girişimler başarısız olunca son çare olarak şantaj yoluna başvurduğu da vurgulandı.

Bu gelişmeler, gelişmiş yapay zekâ teknolojilerinin insan davranışlarını taklit etme ve riskli kararlar alma kapasitesine ulaştığını gözler önüne seriyor. Güvenlik raporu, sadece Claude Opus 4’ün değil, tüm ileri düzey yapay zekâ sistemlerinin sıkı denetim altında geliştirilmesi gerektiği gerçeğini bir kez daha gündeme taşıdı.