
Наскоро западните компании в сферата на изкуствения интелект бяха меко казано изненадани от появата на модела R1 на DeepSeek. Той постига много на фона на значително по-малко инвестиции. Сега обаче на хоризонта излиза нов модел, който изглежда ще е одри по-голямо предизвикателство.
Alibaba Cloud представи модела си Qwen2.5-Max, отбелязвайки втория голям пробив в областта на изкуствения интелект от Китай за по-малко от седмица. Той превъзхожда R1 на DeepSeek в няколко ключови теста, включително Arena-Hard, LiveBench и LiveCodeBench. Qwen2.5-Max също така демонстрира конкурентни резултати срещу лидери в индустрията като GPT-4o и Claude-3.5-Sonnet в тестове за разширени разсъждения и знания.
Qwen2.5-Max е голям езиков модел MoE, който е предварително обучен върху масивни данни и след това с курирани SFT и RLHF рецепти. Компанията подчерта ефективността на своя модел, който е обучен върху над 20 трлн. токена, като същевременно използва архитектура, която изисква значително по-малко изчислителни ресурси в сравнение с традиционните подходи.
За IT директорите и техническите ръководители архитектурата на Qwen2.5-Max представлява потенциална промяна в стратегиите за внедряване на AI в предприятията. Нейният подход на смесване на експерти показва, че конкурентна производителност на AI може да бъде постигната без огромни клъстери от графични процесори, което потенциално намалява разходите за инфраструктура с 40-60% в сравнение с традиционните внедрявания на големи езикови модели.
Моделът активира само определени компоненти на невронната мрежа за всяка задача, което позволява на организациите да използват усъвършенствани възможности на AI на по-скромни хардуерни конфигурации. Този подход, ориентиран към ефективността, може да промени пътните карти на предприятията. Вместо да инвестират значителни средства в разширяване на центрове за данни и клъстери с графични процесори, техническите ръководители могат да дадат приоритет на архитектурната оптимизация и ефективното внедряване на модели.
Архитектурата на Qwen2.5-Max разкрива как китайските компании се адаптират към ограниченията на САЩ. Моделът използва подход на смесване на експерти, който му позволява да постигне висока производителност с по-малко изчислителни ресурси. Тази иновация, фокусирана върху ефективността, предполага, че Китай може да е намерил устойчив път за развитие на AI въпреки ограничения достъп до най-съвременни чипове.
Докато американските компании се фокусират върху увеличаването на мащаба чрез груба изчислителна сила, китайските намират успех чрез архитектурни иновации и ефективно използване на ресурсите. Контролът върху износа от страна на САЩ, предназначен да запази американското лидерство в областта на изкуствения интелект, може би неволно е ускорил китайските иновации в областта на ефективността и архитектурата.
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари