От няколко години насам много специалисти в областта на изкуствения интелект наблюдават бързо нарастващите възможности на новите AI модели и очакват експоненциалното увеличение на производителността да продължи и в бъдеще. Напоследък обаче част от оптимизма относно "закона за мащабирането" на AI изведнъж бе заменен от опасения, че може би вече сме достигнали едно равно плато във възможностите на големите езикови модели, обучени със стандартните методи.
През уикенда The Information обобщи как тези опасения се разискват между някои от водещите специалисти на OpenAI. Неназовани изследователи от OpenAI заявиха пред изданието The Information, че Orion, кодовото име на следващото поколение AI модели на компанията, показва съществено по-малък скок в производителността от този, който се наблюдаваше между GPT-3 и GPT-4 през изминалите две години. При решаването на някои задачи предстоящият модел "не е по-надежден от своя предшественик", твърдят неназовани дпежиалисти на OpenAI, цитирани в статията.
В началото на тази седмица съоснователят на OpenAI Иля Суцкевер, който напусна компанията по-рано тази година, изрази опасенията, че LLM са достигнали платото на това, което може да се получи с помощта на традиционното обучение. Суцкевер заяви пред Ройтерс, че "2010-те години са били ерата на мащабирането", когато вкарването на допълнителни изчислителни ресурси и данни за обучение в рамките на същите базови методи за обучение е можело да доведе до впечатляващи подобрения в последващите модели.
Според експерти и запознати лица, цитирани в тези и други материали, голяма част от проблема с обучението е липсата на нови, качествени текстови данни, върху които да се обучават новите LLM. Този етап и по принцип този модел изглежда, че вече е напълно изчерпан.
Изследователската организация Epoch AI се опита да даде количествена оценка на този проблем в статия по-рано тази година, като измери темпа на нарастване на наборите от данни за обучение на LLM спрямо "приблизителния запас от публичен текст, генериран от хората". След като анализираха тези тенденции, изследователите прецениха, че "езиковите модели изцяло ще изразходват този запас [от генериран от човека публичен текст] през периода между 2026 и 2032 г.", което оставя много малко възможности за обикновеното подаване на все повече данни за обучение.
OpenAI и някои други компании вече започнаха да се ориентират към обучение с помощта на синтетични данни (създадени от други AI модели) в опит да преодолеят тази бързо приближаваща се граница на обучението. Но има сериозни съмнения за това дали този вид изкуствени данни няма да доведат до контекстуален "срив на модела" само след няколко цикъла на подобно рекурсивно обучение.
Други възлагат надежди на бъдещите съвсем нови модели на изкуствен интелект, които могат да се мащабират въз основа на подобряване на техните способности за разсъждение, а не на нови знания за обучение. Но наскоро проведени изследвания показват, че настоящите модели за разсъждение лесно могат да бъдат заблудени. Други учени проучват също така дали процесът на дестилация на знанията може да помогне на големите "учителски" невронни мрежи да обучават "ученически" невронни мрежи с по-прецизен набор от качествена информация.
Но ако настоящите методи за обучение на LLM започват да се изчерпват, следващият голям пробив може да дойде чрез специализиране на изкуствения интелект. Microsoft, например, вече показа известен успех с така наречените малки езикови модели, които се фокусират върху специфични видове задачи и проблеми. За разлика от универсалните LLM, с които сме свикнали днес, в близко бъдеще може да видим AI, които се фокусират върху все по-тесни специализирани области, подобно на докторантите, които прокарват нови, по-езотерични пътища за човешкото знание.
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари