Все по-често виждаме навлизането на новите технологии с изкуствен интелект в разнообразни сектори, които изглежда са особено подходящи за това. Няма как тази революция да пропусне и роботиката, като доста логично място за развитие.
Сега подразделението на Alphabet, занимаващо се с разработки в сферата на изкуствения интелект, машинно обучение и др., Google DeepMind, разкрива значителен напредък в това отношение. Благодарение на подобрен голям езиков модел (Gemini) се демонстрира как висок робот с колела работи като гид и офис помощник.
How can Gemini 1.5 Pro’s long context window help robots navigate the world? ????
— Google DeepMind (@GoogleDeepMind) July 11, 2024
A thread of our latest experiments. ???? pic.twitter.com/ZRQqQDEw98
Роботът може да обработва команди и да се ориентира в околното пространство. Когато получава команда да намери нещо за писане, той отвежда човека до бяла дъска, която се намира в сградата.
Способността на Gemini да работи с видео и текст, както и с голямо количество видео съдържание, което е записано преди това в офис турове, му позволява да има своеобразен усет за заобикалящата го среда. Така той може да реагира на определени запитвания, използвайки наличните данни. Роботът комбинира Gemini с алгоритъм, който генерира специфични действия, които трябва да бъдат предприети.
Когато Gemini беше представен през декември, беше обявено, че мултимодалните му възможности вероятно ще отключат нови способности при роботите. В нов документ, описващ проекта, учените, споделят, че техният робот постига до 90% надеждност в навигацията, дори когато са му дадени сложни команди.
Демонстрацията ясно илюстрира потенциала на големите езикови модели да достигат до реалния свят и да вършат полезна работа. Gemini и други чатботове работят предимно в рамките на уеб браузър или приложение, въпреки че все повече могат да обработват визуални и звукови данни. През май беше демонстрирана усъвършенствана версия на Gemini, способна да осмисли разположението в офис, на база на видяното през камерата на смартфон.
Академичните и индустриалните изследователски лаборатории се надпреварват да търсят начини за използване на езикови модели за подобряване на способностите на роботите. Инвеститорите влагат пари в стартъпи, които имат за цел да приложат постиженията на изкуствения интелект в роботиката.
Само преди няколко години един робот се нуждаеше от карта на околната среда и внимателно подбрани команди, за да се ориентира успешно. Големите езикови модели съдържат полезна информация за реалния свят, а по-новите версии, които се обучават върху изображения и видео, както и върху текст, известни като визуални езикови модели, могат да отговорят на въпроси, които изискват възприятие.
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари