Учени от Apple са разработили нова система с изкуствен интелект, която може да разбира завоалирани препратки към обекти, както и разговорен и фонов контекст. Така ще е възможно постигането на по-естествено взаимодействие с гласови асистенти. Новата система носи името ReALM (Reference Resolution As Language Modeling) и използва големи езикови модели за разбиране на контекст и други типове връзки.
Така е възможно разбирането на препратки към визуални елементи от екрана и постигане на значително подобрение в производителността спрямо съществуващите методи. Учените посочват, че разбирането на контекст, включително препратки, е от изключително значение за разговорните асистенти. Давайки възможност на потребителите да дават заявки относно това, което виждат на екрана е ключова стъпка към истинските асистенти без необходимост от подаване на текстови заявки, добавят те.
За справяне с базирани към екрана препратки е заложено на ключова иновация в ReALM, която позволява реконструирането на дисплея чрез анализ на обектите, както и генерирането на текстова репрезентация, която прихваща визуалната подредба. Учените демонстрират този подход с комбинация с допълнително настроени езикови модели за референтна резолюция, постигащи по-добри резултати от GPT-4.
Отбелязва се още, че са демонстрирани значителни подобрения спрямо съществуващите системи с подобна функционалност спрямо различни типове препратки. Според учените дори най-малкият им модел постига абсолютни подобрения с над 5% за препратки към екрана.
Разкрива се потенциала на фокусираните езикови модели да обработват задачи значително по-добре спрямо големите цялостни модели заради изчислителните им ограничения и латентност. Чрез публикацията на научния си труд Apple отбелязва напредъка си в сферата на изкуствения интелект. Така в близко бъдеще най-вероятно Siri и други продукти на компанията могат да са наясно с контекста на запитванията.
Все пак се отбелязва, че има и някои ограничения, основно относно по-сложните визуални препратки, включително различаване между изображения. Това би изисквало използването на компютърно зрение и мултимодални техники. Въпреки напредъка си Apple все още изостава спрямо конкурентите си в това отношение. Доста по-напред са компании като Google, Microsoft, Amazon и OpenAI, които действат доста агресивно в разработките си.
Разбира се Apple традиционно следва разработката на нови технологии, които в последствие подобрява и използва в собствените си продукти. Доста вероятно е да научим повече за плановете на компанията в рамките на конференцията за разработчици WWDC през юни. Изглежда не остава много време докато се запознаем с какви решения с ИИ ще видим в iPhone.
Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари