
Google представи Gemini 2.5, ново поколение модели за разсъждение с изкуствен интелект, които правят пауза, за да помислят, преди да отговорят на запитване. Като начало, Gemini 2.5 Pro Experimental е мултимодален разсъждаващ модел на ИИ, за който компанията твърди, че е най-интелигентният ѝ модел досега. Този модел ще бъде достъпен в платформата за разработчици на компанията, Google AI Studio, както и в приложението Gemini за абонатите на плана за изкуствен интелект на компанията, Gemini Advanced.
На фона на това Google твърди, че всички нейни нови модели с изкуствен интелект ще имат вградени възможности за разсъждение. Компаниите ускориха усилията си в това направление откакто OpenAI пусна първия модел за разсъждаване с изкуствен интелект през септември 2024 г. Сега Anthropic, DeepSeek, Google и xAI разполагат с модели за разсъждаване с изкуствен интелект, които използват допълнителна изчислителна мощ и време, за да проверяват факти и да разсъждават върху проблеми, преди да дадат отговор.
Техниките за разсъждаване помогнаха на моделите на ИИ да постигнат много повече в задачите по математика и кодиране. Според много анализатори моделите за разсъждение ще бъдат ключов компонент на агентите на ИИ, включително автономни системи, които могат да изпълняват задачи до голяма степен без човешка намеса.
Google и преди е експериментирала с разсъждаващи модели, но Gemini 2.5 представлява най-сериозният опит на компанията да надмине серията модели o на OpenAI. Според компанията Gemini 2.5 Pro превъзхожда нейните предишни гранични модели на ИИ и някои от водещите конкурентни модели на ИИ при няколко сравнителни теста. По-конкретно, Google твърди, че е проектирала Gemini 2.5 така, че да превъзхожда при създаването на визуално привлекателни уеб приложения и приложения за агентично кодиране.
При оценката, измерваща редактирането на код, наречена Aider Polyglot, Google казва, че Gemini 2.5 Pro постига 68.6%, като изпреварва водещите модели на ИИ от OpenAI, Anthropic и китайската лаборатория за ИИ DeepSeek. При друг тест за измерване на способностите за разработване на софтуер, SWE-bench Verified, обаче Gemini 2.5 Pro получава 63.8%, с което изпреварва o3-mini на OpenAI и R1 на DeepSeek, но не успява да се справи с Claude 3.7 Sonnet на Anthropic, който получава 70.3%. На Humanity's Last Exam, мултимодален тест, състоящ се от хиляди въпроси свързани с математиката, хуманитарните и природните науки, според Google Gemini 2.5 Pro постига 18.8%, като се представя по-добре от повечето конкурентни флагмански модели.
Gemini 2.5 Pro идва с контекстуален прозорец от 1 млн. символа, което означава, че моделът на изкуствения интелект може да възприеме около 750 000 думи с едно зареждане. Скоро обаче ще се поддържа двойно по-голяма дължина.
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари