Google представи нова възможност за своя Flash модел Gemini 3.5, наречена Computer Use (Използване на компютър). Това е разработка, която доближава изкуствения интелект значително до функционирането му като истински дигитален агент. Вместо просто да предоставя инструкции, изкуственият интелект вече може да взаимодейства директно с приложения, уебсайтове и софтуерни интерфейси, подобно на начина, по който би го правил човек.
Достъпна чрез Gemini API и новосъздадената Gemini Enterprise Agent Platform, надстройката позволява на AI агентите да наблюдават, разсъждават и управляват реални софтуерни интерфейси, включително и да тестват приложения. Магията зад използването на компютъра от Gemini 3.5 Flash е изградена изцяло върху затворен визуален цикъл.
Когато ѝ бъде зададена дигитална задача, системата непрекъснато прави бързи екранни снимки на средата за изпълнение. Мултимодалната архитектура на Gemini 3.5 Flash анализира изображението, идентифицира интерактивни елементи на графичния потребителски интерфейс, като текстови полета, падащи менюта и ленти за търсене и определя точните координати на следващата си стъпка.
Клиентският механизъм за автоматизация, използващ стандартни инструменти като Playwright, след това кликва върху бутони, въвежда дълги текстови команди, превърта надолу страници или превключва раздели от името на потребителя, повтаряйки цикъла, докато задачата не бъде изпълнена успешно. За да няма злоупотреби, са предвидени и някои механизми за защита. Тяхното ниво на чувствителност може да бъде регулирано от програмистите и системните администратори.
Може например да се активира искане за изрично разрешение от човешки потребител за извършване на конкретни стъпки в изпълнението на дадена задача. Системата също така постоянно анализира командите, които получава и може да прецени дали някои от тях не са злонамерени или се прави опит за „инжектиране“ на команда по индиректни начини. В такива ситуации агентът ще спира изпълнението на цялата задача.
Стратегическият избор на Google да дебютира вграден компютърен контрол на своя по-лек и по-бърз Flash модел, вместо с големия и изчислително скъп флагман, е пресметнат ход. С резултат от 78,4% в бенчмарка OSWorld-Verified, Gemini 3.5 Flash се представя с в рамките на 0,3 пункта от по-тежки системи като GPT-5.5.
Като определя цената на услугата на 1,50 долара на милион входни токена, Google залага на това, че бизнесите ще дадат приоритет на скоростта и рентабилността при внедряването на автономни агенти. Тъй като корпоративни софтуерни платформи като Salesforce и Shopify бързо интегрират тези инструменти в своите екосистеми, ерата на статичните чатботове наближава своя край, разчиствайки пътя за автономни колеги.
Тази възможност представлява голяма промяна в начина, по който хората могат да използват изкуствения интелект в бъдеще. Традиционно потребителите биха питали изкуствен интелект как да резервират полет, да попълнят електронна таблица или да конфигурират софтуерна настройка. Изкуственият интелект би предоставил инструкции стъпка по стъпка, оставяйки действителната работа на потребителя.
С помощта на Computer use, Gemini може да изпълнява много от тези стъпки директно през интерфейса на приложението. Последиците са значителни. Бизнесът отдавна мечтае за автоматизиране на повтарящи се компютърни задачи.
Служителите прекарват безброй часове в навигиране в уебсайтове, въвеждане на данни, копиране на информация между системи и извършване на рутинна административна работа. Технологията все още е далеч от перфектна. Сложните интерфейси, неочакваните изскачащи прозорци, променящите се оформления на уебсайтове и двусмислените инструкции все още могат да създадат предизвикателства за системите. Това обаче ще се адресира сравнително бързо, имайки предвид за колко кратко време преминахме от AI ботове, които рисуваха като 2-годишни деца и достигахме до първите стъпки на AI агентите.






Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари