Моделът на OpenAI по някаква неизвестна причина периодично „мисли“ на китайски

Стефан Николов Последна промяна на 17 януари 2025 в 12:16 950 0

Снимка OFFNews/ChatGPT

Уязвимост в WinRAR се експлоатира активно от хакери

13/08/2025

Microsoft закрива приложението си за сканиране на документи Lens

Новият AI модел на OpenAI, който носи името o1, демонстрира неочаквани езикови особености. В процеса на решаване на задачите той понякога започва да „мисли“ на китайски, персийски и други езици, дори ако въпросът е зададен на английски. Експертите предполагат, че това може да се дължи на особеностите на обучението на модела или на асоциации, формирани при работата с различни данни. Поради затворения характер на разработката на OpenAI обаче точните причини за това явление не са известни.

Ако трябва да се реши някаква задача, o1 започва да „мисли“, като извършва няколко логически действия, за да получи отговора. Ако въпросът е зададен на английски език, отговорът ще бъде на английски език. Но в някои етапи от решаването моделът понякога използва друг език. Така например потребителите на Reddit съобщават, че във веригата от разсъждения на o1 понякога се използва китайски език.

OpenAI не може да обясни по никакъв начин странното поведение на o1. Експертите по изкуствен интелект имат няколко предположения за причината. Някои потребители на X, включително ръководителят на Hugging Face Клемент Деланг, намекнаха, че данните за обучение на модели като o1 съдържат много китайски йероглифи. Тед Сяо, изследовател в Google DeepMind, предположи, че компаниите, включително OpenAI, използват услуги за етикетиране на китайски данни от трети страни. Много доставчици на данни са базирани именно в Китай, за да икономисат средства. Сяо каза, че прехвърлянето на o1 на китайски език е пример за „влиянието на китайския език върху мисловния процес“.

Таговете (етикети, анотации) помагат на изкуствения интелект (AI) да разбира и обработва информацията по време на обучението. Така например, за да се обучи даден модел за разпознаване на изображения, таговете могат да бъдат под формата на описани обекти или надписи, описващи хората, местата и обектите на снимката. И още - пристрастните обозначения правят и моделите пристрастни.

Но някои други експерти не смятат, че става въпрос за китайски маркери при o1. Нещо повече, моделът може по време на междинните фази да превключи на хинди, тайландски или друг език, когато се опитва да реши нещо. По-вероятно е, смятат тези експерти, o1 и другите подобни модели просто да използват езиците, които са им по-удобни, за да решат конкретния проблем.

„Моделът не знае какво е език и че езиците са различни“, казва Матю Гуздиал от Университета на Алберта. - За него това е просто набор от символи.“

Всъщност моделите не обработват думите директно. Вместо това те използват токени. Токените могат да бъдат думи („fantastic“), срички („fan“, „tas“ и „tic“) и дори отделни букви в думите („f“, „a“, „n“, „t“, „a“, „a“, „s“, „t“, „i“, „c“). Както и при маркирането, токенизацията може да доведе до отклонения. Например много програми за преобразуване на думи в токенизация приемат наличието на интервал в изречението като индикация за нова дума, въпреки факта, че не всички езици използват интервали за разделяне на думите.

Тянжен Уанг, инженер в Hugging Face, изразява мнение, че моделите могат да използват различни езици в зависимост от задачата поради асоциациите, направени по време на обучението. Уанг обяснява, че това е така, защото някои езици могат да бъдат по-полезни за различни видове мислене. Програмистът споделя собствения си опит: по-удобно му е да извършва математически изчисления на китайски език поради краткостта на цифрите, но когато обсъжда несъзнателни предразсъдъци, той автоматично превключва на английски, защото това е езикът, на който за първи път се е сблъскал с подобни понятия. Въпреки това няма да е възможно да се потвърдят или отхвърлят предположенията на експертите поради непрозрачността на моделите на OpenAI.