
Малките модели за изкуствен интелект изглежда са на мода, след като и Nvidia пусна подобно решение. Новият малък езиков модел (SLM) е с обозначението Nemotron-Nano-9B-V2 и постига най-висока производителност в своя клас на избрани бенчмаркове, като дава възможност на потребителите да включват и изключват ИИ разсъжденията.
Макар 9-те милиарда параметри да са повече от някои от новите малки модели на конкурентите, Nvidia отбелязва, че това е значително намаление от първоначалния размер от 12 млрд. параметри и е проектиран да се побере на един Nvidia A10 графичен процесор. Той е и хибриден модел, което му позволява да обработва по-големи партиди и да бъде до 6 пъти по-бърз от трансформаторни модели с подобен размер.
За контекст, много от водещите LLM са в диапазона от 70+ млрд. параметри. Моделът обработва няколко езика, включително английски, немски, испански, френски, италиански, японски, а в разширените описания – корейски, португалски, руски и китайски. Подходящ е както за следване на инструкции, така и за генериране на код.
Nemotron-Nano-9B-V2 и неговите предварително обучени набори от данни са достъпни в момента в Hugging Face и чрез каталога с модели на компанията. Той се базира на Nemotron-H, набор от хибридни Mamba-Transformer модели, които формират основата на най-новите предложения на компанията.
Докато повечето популярни LLM са чисти Transformer модели, които разчитат изцяло на слоеве за внимание, те могат да станат скъпи по отношение на паметта и изчислителната мощност с нарастването на дължината на последователностите. Вместо това, моделите Nemotron-H и други, използващи архитектурата Mamba, разработена от изследователи от университета Карнеги Мелън и Принстън, също включват селективни модели на състоянието (или SSM), които могат да обработват много дълги последователности от информация, като поддържат състоянието.
Тези слоеве се мащабират линейно с дължината на последователността и могат да обработват контексти, които са много по-дълги от стандартното самообръщане на внимание, без същия разход на памет и изчислителна мощност. Хибридният Mamba-Transformer намалява тези разходи, като замества по-голямата част от вниманието с линейни слоеве на пространството на състоянията, постигайки до 2–3 пъти по-висока производителност при дълги контексти с сравнима точност.
Nemotron-Nano-9B-v2 е позициониран като унифициран, само текстов чат и модел за разсъждение, обучен от нулата. Системата по подразбиране генерира следа на разсъжденията, преди да даде окончателен отговор, но потребителите могат да променят това поведение чрез прости контролни маркери като /think или /no_think.
Тестван в режим „разсъждение включено“ с помощта на пакета NeMo-Skills, Nemotron-Nano-9B-v2 достига 72,1% на AIME25, 97,8% на MATH500, 64,0% на GPQA и 71,1% на LiveCodeBench. Отчетени са и резултатите от бенчмарковете за следване на инструкции и дълъг контекст: 90,3% на IFEval, 78,9% на теста RULER 128K и по-малки, но измерими подобрения на BFCL v3 и бенчмарка HLE.
Моделът Nano-9B-v2 е пуснат под лицензионното споразумение Nvidia Open Model License Agreement. Nvidia изрично заявява, че моделите са готови за търговска употреба и че разработчиците са свободни да създават и разпространяват производни модели.
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари