
През последните години генеративните AI модели стават все по-усъвършенствани, като се очаква скоро да могат да изпълняват задачи в реалния свят. Водещи компании в областта на изкуствения интелект вече разработват агенти, които могат да поемат различни рутинни дейности като управление на уеб базирани проекти, поръчка на хранителни продукти и резервации за ресторанти.
Пример в това отношение е компанията Google DeepMind, която обяви два нови генеративни AI модела, предназначени да подпомагат роботите. Моделите работят с Gemini 2.0, който Google определя като “най-способния” си изкуствен интелект до момента.
Новите модели представляват важна стъпка напред в развитието на AI, тъй като не само разбират и генерират текст, а и могат да взаимодействат със света около нас по начини, които преди бяха немислими. Те са способни да обработват текстови, гласови и графични данни, предоставяйки широк спектър от функции, включително отговори на въпроси, даване на съвети и помощ във всякакви ситуации.
Първият от новите модели, наречен Gemini Robotics, е проектиран да комбинира визуални, езикови и двигателни способности. Той може да анализира изображения, да разбира текст и глас и да генерира инструкции за физически действия, които роботите трябва да изпълнят.
Google уверява, че нейните модели са съвместими с всякакви хардуерни системи, включително хуманоиди и други видове роботи, използвани във фабрики и складове. Те обаче са тествани основно с роботизираните ръце Aloha 2, които DeepMind представи миналата година.
В демонстрационен видеоклип, публикуван в блога на компанията, в отговор на подкана роботизирана ръка внимателно вдига миниатюрна баскетболна топка и я пуска в мрежа. В друга част от клипа, демонстрираща сръчността на новите модели, се вижда как роботизирани ръце сгъват лист хартия, правейки оригами.
Вторият модел, представен от Google DeepMind, е Gemini Robotics-ER, където "ER" означава "разширено разсъждение". Този термин описва интуитивното разбиране на физическия свят, което хората развиват чрез житейския си опит. Ние сме способни да правим разумни предположения за най-добрия начин на взаимодействие с непознати обекти, просто като ги наблюдаваме. Именно това качество се стреми да имитира Gemini Robotics-ER.
Пример за това е способността на модела да определя правилната точка за хващане на чаша за кафе. Gemini Robotics-ER успешно идентифицира дръжката на чашата, както би постъпил човек, защото това е мястото, където обикновено хващаме чашите за кафе.
Припомняме, че през декември Google DeepMind и компанията за хуманоидни роботи Apptronik обявиха партньорство, насочено към създаването на ново поколение хуманоидни роботи, базирани на модела Gemini. Освен това, DeepMind предостави своите модели на избрана група от водещи компании, наречени „доверени тестери“. Сред тях са Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools. Засега компанията не предоставя информация кога технологията ще се появи на пазара.
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари