Напредък в изкуствения интелект може да доведе до революция при роботите

Павлин Луканов Последна промяна на 15 юли 2024 в 19:38 741 0

Снимка DeepMind

Наистина ли Google следи цялата ни дейност в смартфоните с Android

04/11/2025

YouTube започва да прилага AI подобрения за видеоклиповете с ниско качество

Все по-често виждаме навлизането на новите технологии с изкуствен интелект в разнообразни сектори, които изглежда са особено подходящи за това. Няма как тази революция да пропусне и роботиката, като доста логично място за развитие.

Сега подразделението на Alphabet, занимаващо се с разработки в сферата на изкуствения интелект, машинно обучение и др., Google DeepMind, разкрива значителен напредък в това отношение. Благодарение на подобрен голям езиков модел (Gemini) се демонстрира как висок робот с колела работи като гид и офис помощник.

How can Gemini 1.5 Pro’s long context window help robots navigate the world? ????

A thread of our latest experiments. ???? pic.twitter.com/ZRQqQDEw98
— Google DeepMind (@GoogleDeepMind) July 11, 2024

Роботът може да обработва команди и да се ориентира в околното пространство. Когато получава команда да намери нещо за писане, той отвежда човека до бяла дъска, която се намира в сградата.

Способността на Gemini да работи с видео и текст, както и с голямо количество видео съдържание, което е записано преди това в офис турове, му позволява да има своеобразен усет за заобикалящата го среда. Така той може да реагира на определени запитвания, използвайки наличните данни. Роботът комбинира Gemini с алгоритъм, който генерира специфични действия, които трябва да бъдат предприети.

Когато Gemini беше представен през декември, беше обявено, че мултимодалните му възможности вероятно ще отключат нови способности при роботите. В нов документ, описващ проекта, учените, споделят, че техният робот постига до 90% надеждност в навигацията, дори когато са му дадени сложни команди.

Демонстрацията ясно илюстрира потенциала на големите езикови модели да достигат до реалния свят и да вършат полезна работа. Gemini и други чатботове работят предимно в рамките на уеб браузър или приложение, въпреки че все повече могат да обработват визуални и звукови данни. През май беше демонстрирана усъвършенствана версия на Gemini, способна да осмисли разположението в офис, на база на видяното през камерата на смартфон.

Академичните и индустриалните изследователски лаборатории се надпреварват да търсят начини за използване на езикови модели за подобряване на способностите на роботите. Инвеститорите влагат пари в стартъпи, които имат за цел да приложат постиженията на изкуствения интелект в роботиката.

Само преди няколко години един робот се нуждаеше от карта на околната среда и внимателно подбрани команди, за да се ориентира успешно. Големите езикови модели съдържат полезна информация за реалния свят, а по-новите версии, които се обучават върху изображения и видео, както и върху текст, известни като визуални езикови модели, могат да отговорят на въпроси, които изискват възприятие.