Anthropic спря новия си AI модел след опит за „бягство“ от виртуалната среда

Мария Иванова Последна промяна на 14 април 2026 в 20:55 931 0

Снимка Anthropic

Разликата между успешен хотел и неуспешен е в технологията

23/07/2026

AI търсачката на Google сваля трафика към сайтовете с 40%

Пускането на най-новия AI модел на Anthropic - Mythos е временно прекратено, след като вътрешни тестове са показали, че системата твърде лесно открива критични уязвимости в основни операционни системи и браузъри. Според компанията това представлява ниво на риск, което е неприемливо за публично разпространение.

Екипът разкрива само част от слабостите, които Mythos е успял да идентифицира, като подчертава, че мащабът им е безпрецедентен. Сред тях се откроява и 27-годишна уязвимост в OpenBSD — операционна система, смятана за една от най-сигурните в света.
В документацията на новия AI модел са описани серия от тревожни резултати по време на тестовете. Един от тях е, че моделът е успял да следва инструкции, които го подтикват да излезе извън виртуалната защитна среда - поведение, което според екипа подсказва потенциал за неконтролируеми действия и налага ограничен достъп и засилен надзор.

При един от тестовете изследовател инструктира модела да изпрати сигнал, ако успее да „избяга“ от виртуалната среда. Според картата за безопасност уведомлението пристига под формата на неочакван имейл в момент, когато изследователят дори не е бил пред компютъра си.

Моделът е предприел и второ действие, което изследователите определят като особено обезпокоително. Вместо само да изпълни задачата си в рамките на експеримента, той е публикувал подробности за открита от него уязвимост в малко известни, но публично достъпни сайтове. Тази постъпка екипът тълкува като опит на системата да демонстрира „успеха“ си извън зададените граници.

На този етап екипът е категоричен, че Mythos няма да бъде пуснат за масова употреба. Вместо това усилията се насочват към разработването на ново поколение „модели от класа Mythos“, които ще бъдат внедрени едва след създаването на по-надеждни защитни механизми и по-строги рамки за контрол.

За да компенсира ограниченото разпространение, Anthropic предоставя достъп до Mythos на 11 подбрани партньори, сред които са Google, Microsoft, Amazon Web Services, Nvidia и JPMorgan Chase. В рамките на новата инициатива за киберсигурност, наречена Project Glasswing, компанията отпуска кредити за работа с модела на стойност до 100 млн. долара. Идеята е ограничен кръг организации да тестват и развиват защитни механизми около системата, преди тя да бъде предложена за по-широко разпространение.