Учени от Apple са разработили изкуствен интелект, който разбира контекст от екранни изображения

Павлин Луканов Последна промяна на 02 април 2024 в 14:12 927 0

Siri

Снимка Apple

Така в близко бъдеще най-вероятно Siri и други продукти на компанията могат да са наясно с контекста на запитванията.

Учени от Apple са разработили нова система с изкуствен интелект, която може да разбира завоалирани препратки към обекти, както и разговорен и фонов контекст. Така ще е възможно постигането на по-естествено взаимодействие с гласови асистенти. Новата система носи името ReALM (Reference Resolution As Language Modeling) и използва големи езикови модели за разбиране на контекст и други типове връзки.

Така е възможно разбирането на препратки към визуални елементи от екрана и постигане на значително подобрение в производителността спрямо съществуващите методи. Учените посочват, че разбирането на контекст, включително препратки, е от изключително значение за разговорните асистенти. Давайки възможност на потребителите да дават заявки относно това, което виждат на екрана е ключова стъпка към истинските асистенти без необходимост от подаване на текстови заявки, добавят те.

За справяне с базирани към екрана препратки е заложено на ключова иновация в ReALM, която позволява реконструирането на дисплея чрез анализ на обектите, както и генерирането на текстова репрезентация, която прихваща визуалната подредба. Учените демонстрират този подход с комбинация с допълнително настроени езикови модели за референтна резолюция, постигащи по-добри резултати от GPT-4.

Отбелязва се още, че са демонстрирани значителни подобрения спрямо съществуващите системи с подобна функционалност спрямо различни типове препратки. Според учените дори най-малкият им модел постига абсолютни подобрения с над 5% за препратки към екрана.

Разкрива се потенциала на фокусираните езикови модели да обработват задачи значително по-добре спрямо големите цялостни модели заради изчислителните им ограничения и латентност. Чрез публикацията на научния си труд Apple отбелязва напредъка си в сферата на изкуствения интелект. Така в близко бъдеще най-вероятно Siri и други продукти на компанията могат да са наясно с контекста на запитванията.

Все пак се отбелязва, че има и някои ограничения, основно относно по-сложните визуални препратки, включително различаване между изображения. Това би изисквало използването на компютърно зрение и мултимодални техники. Въпреки напредъка си Apple все още изостава спрямо конкурентите си в това отношение. Доста по-напред са компании като Google, Microsoft, Amazon и OpenAI, които действат доста агресивно в разработките си.

Разбира се Apple традиционно следва разработката на нови технологии, които в последствие подобрява и използва в собствените си продукти. Доста вероятно е да научим повече за плановете на компанията в рамките на конференцията за разработчици WWDC през юни. Изглежда не остава много време докато се запознаем с какви решения с ИИ ще видим в iPhone.

Всички новини
За писането на коментар е необходима регистрация.
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!

Няма коментари към тази новина !