Meta разработва AI гласов преводач за комуникация в реално време

Мария Иванова Последна промяна на 08 декември 2023 в 11:40 1737 0

Снимка Meta

Seamless Communication

След шестгодишна разработка Google прекрати проекта Privacy Sandbox

22/10/2025

Microsoft иска да внедри AI във всички компютри с Windows 11

Meta представи нов набор от модели с изкуствен интелект, наречен Seamless Communication (Безпроблемно общуване). Целта на новата система е да подобри комуникацията между хората, говорещи различни езици, като я направи по-естествена и автентична.

Първият модел, наречен SeamlessExpressive, е специално проектиран да пренася експресивните елементи на гласа на говорещия в преведената реч. Това означава, че ако той изразява определена емоция чрез тона на гласа си (например вълнение, тъга или шепот), тези нюанси ще бъдат запазени и в превода. Също така, моделът взема предвид и други аспекти на говора, като височината и силата на звука, темпото на говорене, паузите и др.

“Като се има предвид, че преводната реч традиционно е донякъде роботизирана, тази разработка може да бъде революционна и да окаже влияние както върху ежедневното общуване, така и върху създаването на съдържание” - посочват от екипа на Meta. В момента SeamlessExpressive поддържа няколко езика, включително английски, испански, немски, френски, италиански и китайски, а от компанията обещават да разширяват този списък в бъдеще.

Вторият модел, представен от Meta, е SeamlessStreaming и може да започне превода, още докато говорещият довършва мисълта си. Това позволява на слушателите да чуят преведената версия по-бързо, без да се налага да чакат говорещият да завърши изречението си. Въпреки че има кратко закъснение (от малко под две секунди), тази функция позволява по-бърз превод.

Основното предизвикателство при разработката на модела е свързано с различните конструкции на изреченията при различните езици. В някои езици например глаголът обикновено се поставя в края на изречението, докато в други - в началото или средата. Това налага разработването на специален алгоритъм, който да определи дали съществува достатъчно контекст, за да започне превода, или е необходимо да се продължи със слушането, докато говорещият не завърши изречението си.

Третият модел в набора на Meta е наречен SeamlessM4T v2 и служи като основа за другите два модела - SeamlessExpressive и SeamlessStreaming. Той е ключов компонент в системата, тъй като осигурява основната функционалност за превод на реч.

Според разработчиците, тези модели имат потенциала да трансформират глобалната комуникация, като предоставят нови гласови комуникационни изживявания. Те могат да намерят различни приложения - от многоезични разговори в реално време чрез умни очила до автоматично дублиране на видеоклипове и подкасти.

Освен това, изследователите предполагат, че тези модели ще помогнат за преодоляване на езиковите бариери при имигрантите или други хора, които имат трудности с комуникацията. Те могат да бъдат особено полезни при среща на хора от различни култури и езикови общности.

Чрез Seamless Communication Meta се стреми да направи преводите на разговори по-спонтанни и изразителни - фактор, който е от съществено значение за междуезиковото общуване. Това е първият модел, който превежда на 200 езика и по този начин превъзхожда инструментите за мобилен превод на конкуренти като Google и Samsung.

Въпреки това, все още предстои да видим как Meta ще включи новите си функции в бъдещи продукти. Една от възможностите е компанията да ги интегрира в умни очила, превръщайки ги в мощен инструмент за междуезикова комуникация в реално време.