Новите модели с изкуствен интелект на OpenAI могат да "разсъждават"

Павлин Луканов Последна промяна на 27 декември 2024 в 18:05 1847 0

Снимка Pixabay

Сон срещу Мъск: Защо шефът на SoftBank смята космическите дейта центрове за грешка

19/06/2026

Опасните модели на изкуствен интелект ще се появят, каквото и да става

OpenAI не спира с развитието на моделите си с изкуствен интелект, което е нормално, имайки предвид вече доста конкурентната среда. Така главният изпълнителен директор на OpenAI Сам Олтман обяви най-новите модели за разсъждаване (reasoning) с изкуствен интелект - o3 и o3-mini, които надграждат моделите o1, пуснати по-рано тази година. Първоначално те ще са достъпни за тестване в областта на обществената безопасност и за достъп до научни изследвания.

Моделите използват частна мисловна верига (private chain of thought), при която моделът прави пауза, за да проучи вътрешния си диалог и да планира напред, преди да реагира, което може да се нарече симулирано разсъждение (SR), форма на ИИ, която надхвърля основните големи езикови модели (LLM).

Изглежда от компанията са нарекли моделното семейство o3 вместо o2, за да се избегне потенциални конфликти за търговска марка с британския телекомуникационен доставчик O2. Според OpenAI o3 е постигнал рекорден резултат в бенчмарка ARC-AGI, бенчмарк за визуално мислене. В сценариите с ниска изчислителна мощ o3 постигна 75.7%, а в тестовете с висока изчислителна мощ, 87.5 %, сравнимо с човешкото представяне при праг от 85%.

OpenAI също така разкрива, че o3 е постигнал 96.7% на американския изпит по математика през 2024 г., като е пропуснал само един въпрос. Моделът също така постигна 87.7% на GPQA Diamond, който съдържа въпроси от биологията, физиката и химията на ниво висши училища. На сравнителния тест Frontier Math на EpochAI o3 реши 25.2% от задачите, докато никой друг модел не е надхвърлил 2 процента.

Вариантът o3-mini включва функция за адаптивно време за мислене, като предлага ниска, средна и висока скорост на обработка. Компанията заявява, че по-високите изчислителни настройки дават по-добри резултати. OpenAI съобщава, че o3-mini превъзхожда своя предшественик, o1, в бенчмарка Codeforces.

Съобщението на OpenAI идва в момент, когато други компании разработват свои собствени SR модели, включително Google, която обяви Gemini 2.0 Flash. През ноември DeepSeek пусна DeepSeek-R1, а екипът Qwen на Alibaba пусна QwQ, което нарече първата отворена алтернатива на o1.

Тези нови модели на ИИ се основават на традиционните LLM, но те са прецизирани, за да създадат вид итеративна верига на мисловен процес, която може да разглежда собствените си резултати, симулирайки разсъждения по почти груб начин, който може да бъде мащабиран по време на извод (работа), вместо да се фокусира върху подобренията по време на обучението на моделите на ИИ, при което напоследък се наблюдава намаляваща възвръщаемост.