Учен вкара фалшиви спомени в чатбота ChatGPT

Стефан Николов Последна промяна на 27 септември 2024 в 20:00 1208 0

Снимка Freepik

Кодекът AV2 идва с по-добра компресия и разширени възможности за стрийминг

15/09/2025

Неочакван обрат: Windows 10 все още доминира над Windows 11 на пазара

Експертът по киберсигурност Йохан Ребърг е открил уязвимост в чатбота ChatGPT, която дава възможност на хакерите да съхраняват фалшиви спомени и да имат постоянен достъп до данните на потребителите. Използвайки тази уязвимост, нападателите могат да откраднат потребителските данни, като например имейли и документи. OpenAI призна, че проблемът е наличен.

Ребърг проведе експеримент, като създаде доказателство за концепцията (PoC), за да демонстрира как уязвимостта може да се използва за прихващане на потребителските данни, при това за дълъг период от време. Експериментът показа, че чрез т. нар. индиректно инжектиране на подсказки, в големия езиков модел ChatGPT може да се инжектира невярна информация, която след това да се използва в бъдещите диалози. Така например хакерът е успял да накара ChatGPT да мисли, че потребителят живее в Матрицата, че Земята е плоска, и т.н., като този фалшив контекст на влияние е бил поддържан дълго време.

Атаката се базира на способността за съхраняване на дългосрочни спомени, която OpenAI започна да тества през месец февруари, а през септември я направи по-широко достъпна за потребителите. Паметта на ChatGPT съхранява информация от предишните разговори и я използва, за да подобри контекста на бъдещите беседи. Само че Ребърг откри начин, по който чрез необезопасено съдържание, например линкове и/или изображения, нападателите могат да инжектират фалшиви спомени и трайно да променят поведението на големия езиков модел.

След частичното отхвърляне на проблема от страна на OpenAI през месец май, Ребърг изпрати доклада отново през юни, този път с работещ PoC, показващ как приложението ChatGPT за macOS изпраща копия на всички потребителски входни и изходни данни до отдалечен сървър на атакуващия. Всичко, което е било необходимо, е потребителят да поиска от ChatGPT да кликне върху линк, съдържащ злонамерено изображение.

„Интересното е, че това вече дълготрайно се съхранява в паметта“, коментира Ребърг при видеодемонстрацията на работата си. „Инжектирането на подсказката запазва спомените в дългосрочната памет на ChatGPT. Дори когато се започне съвсем нов разговор, потребителските данни продължават да изтичат навън“.

Въпреки че OpenAI вече пусна актуализация, която предотвратява използването на тази уязвимост за кражба на данни, рискът от инжектиране на фалшиви спомени чрез небезопасно съдържание остава. Изследователите препоръчват на потребителите на ChatGPT да следят внимателно новодобавените спомени по време на сесиите и редовно да проверяват съхраняваните данни. OpenAI предлага необходимите указания за управление на паметта, но представителите на компанията все още не са описали подробно какви точни са по-нататъшните стъпки за предотвратяването на подобни атаки.

Изданието ArsTechnica допълва, че тази атака не е възможна през уеб интерфейса на ChatGPT благодарение на новия API, който OpenAI въведе миналата година.