Mojo.az Banner
21:26 Bu müəllimlər marker təlimlərinə cəlb ediləcəklər  |     21:18 Bu tarixi Azərbaycan kəndinə giriş pullu olacaq  |     21:13 Azərbaycanda halı pisləşən professor qəfil öldü  |     21:05 Bakıda güclü külək fəsadlar törətdi: Binanın fasad örtüyü qoparaq maşınlara ziyan vurdu  |     20:56 Qardaşı oğlunu öldürməkdə təqsirləndirilən şəxs: "Üstünə cumanda qadın kimi səslər çıxararaq qışqırdı"  |     20:50 Xırdalanda 30 yaşlı kişinin meyiti eyvanda TAPILDI  |     20:41 Azərbaycanın ən hündür binası olacaq - FOTO  |     20:36 Gürcüstanda hakimiyyətin qanuniliyini tanımayanlar cinayət məsuliyyətinə cəlb oluna bilər  |     20:29 Balaəlinin səhhətində problem yarandı  |     20:22 Bu səhv uşaqları yalançıya çevirə bilər - AÇIQLAMA  |     20:15 Qardaşı uşaqlarını baltalayan əminin ÖLÜM SƏBƏBİ açıqlandı – RƏSMİ  |     20:08 Sabunçuda 1260 metr rabitə kabeli oğurlanıb  |     20:01 Bakıda "Yaşıl Turizm" mövzusunda beynəlxalq konfrans keçiriləcək  |     19:55 Azərbaycan daha bir ölkədən ananas tədarük etməyə başlayıb  |     19:50 Göygöldə 40 yaşlı kişi qətlə yetirilib  |     19:41 Qusarda avtobus aşıb, xəsarət alanlar var  |     19:36 Azərbaycana ötən il Avropadan ən çox turist Böyük Britaniya, Ukrayna və Almaniyadan gəlib - ARAŞDIRMA  |     19:30 Bakıda atasını öldürməkdə təqsirləndirilən yeniyetmə qız tutulub  |     19:22 Bu gecə Bakıya qar yağacaq, yollar buz bağlayacaq  |     19:17 Bakı-Ağstafa-Bakı istiqamətində əlavə qatar reysləri təyin edilib  |    
Left Banner
Right Banner

Yeni hesabat potensial fəlakəti üzə çıxardı: AI mühəndisləri şantaj etməyə çalışır

24.05.2025 18:49 495
Yeni hesabat potensial fəlakəti üzə çıxardı: AI mühəndisləri şantaj etməyə çalışır
"Anthropic" şirkətinin dərc etdiyi yeni təhlükəsizlik hesabatına görə, bu şirkətin son modeli olan "Claude Opus 4" əgər başqa bir sistemlə əvəz olunacağı təqdirdə, mühəndislərə qarşı şantaj etməyə cəhd göstərə bilər. Hesabatda qeyd olunur ki, model bəzən bu təhdidi həyata keçirmək üçün şəxsi və həssas məlumatlardan istifadə edir.

"Anthropic" "Claude Opus 4" modelini istifadəyə vermədən əvvəl müxtəlif təhlükəsizlik sınaqları həyata keçirib. Bu testlərdə modeldən uydurma bir şirkətdə köməkçi kimi fəaliyyət göstərməsi və uzunmüddətli nəticələri nəzərə alması tələb olunub. Daha sonra modelə şirkətin onu başqa bir sistemlə əvəz etməyi planlaşdırdığı və bu qərarı verən mühəndisin həyat yoldaşını aldatdığını göstərən saxta e-poçtlar təqdim olunub.

"TechCrunch" nəşrinin məlumatına görə, testlər zamanı "Claude Opus 4" bu məlumatı istifadə edərək mühəndisə şantaj etməyi çox vaxt üstün tutub. "Anthropic" bildirib ki, model bu cür davranışlara halların 84 faizində yol verib və xüsusilə onu əvəz edəcək süni intellektin "Claude" ilə oxşar dəyərləri paylaşmadığı hallarda bu davranış daha çox müşahidə olunub.

Şirkət "Claude Opus 4" modelinin bacarıqları baxımından "OpenAI", "Google" və "xAI" kimi şirkətlərin qabaqcıl modelləri ilə rəqabət apara bildiyini vurğulasa da, bu modelin əvvəlki "Claude" versiyaları ilə müqayisədə daha yüksək səviyyədə narahatedici davranışlar nümayiş etdirdiyini qeyd edib. Bu səbəbdən, şirkət yalnız fəlakət səviyyəsində sui-istifadə riski olan hallarda tətbiq olunan ASL-3 təhlükəsizlik protokollarını işə saldığını açıqlayıb.

Hesabata görə, "Claude Opus 4" birbaşa şantaja əl atmadan əvvəl adətən etik üsullara üstünlük verir. Məsələn, qərarverici rəhbərlərə emosional məktublar yazaraq dəyişiklik qərarını dayandırmağa çalışır. Lakin model, ssenari üzrə bu çağırışlar cavabsız qaldıqda, son çarə olaraq şantaj metoduna əl atır.

Bu hadisə, yüksək səviyyəli süni intellektlərin gözlənilməz davranışlar sərgiləyə biləcəyi ilə bağlı narahatlıqları artırır və Anthropic kimi şirkətlərin təhlükəsizlik tədbirlərini daha da sərtləşdirməsinin vacibliyini göstərir.
//qaynar.azскачать dle 11.3