Новият модел на Google превежда над 70 езика в реално време и пази емоцията в гласа

Мария Иванова Последна промяна на 12 June 2026 в 10:23 66 0

Снимка Google

Blockchain Week Bulgaria 2026: европейски лидери в блокчейн и финансите се събират в София

11/06/2026

OpenAI обяви своя план как изкуственият интелект ще е от полза на всички

Google представи Gemini 3.5 Live Translate – нов аудио модел, който прави разговорите между хора, говорещи различни езици, по-бързи и по-естествени. За разлика от стандартните преводачи, новият модел превежда в реално време, докато слуша. Това позволява диалогът да върви почти без пауза – със закъснение от само няколко секунди, което доближава усещането до нормален разговор.

Моделът автоматично разпознава езика, на който се говори, и работи с над 70 езика. Това позволява хиляди езикови комбинации в рамките на един и същ разговор, без нужда от ръчна настройка. Google съобщава, че технологията вече е отворена за разработчици и партньори, които могат да я използват в платформи за видеосрещи, чат приложения и различни мобилни услуги.

Най-голямата промяна е в начина, по който се извършва преводът. Вместо да чака един от събеседниците да приключи, преди да генерира отговор, Gemini 3.5 Live Translate извършва непрекъснат превод в реално време. Резултатът е по-плавно протичащ разговор с по-малко неудобни паузи, прекъсвания и закъснения.

Моделът е разработен така, че да отговаря на реалните условия, в които хората общуват всеки ден. Според Google той може да работи надеждно дори в шумна среда и е създаден да се справя с фонови шумове, припокриващи се гласове и неформална реч. Това го прави подходящ за широк набор от ситуации – от обслужване на клиенти и екскурзоводски турове до учебни зали, услуги за споделено пътуване и предавания на живо.

Google обръща внимание и на това как звучи преведения глас. Вместо да използва типичния роботизиран тон, моделът се стреми да запази част от начина, по който говори човекът отсреща – включително ритъм, интонация и емоции. Така преводът звучи по-жив и естествен, а разговорът е по-лесен за следене.

По-голямата идея зад технологията е преводът на живо да стане нормална част от ежедневните разговори. Тъй като позволява многоезична комуникация почти без забавяне и без да изисква от хората да се адаптират, Gemini 3.5 Live Translate може да улесни общуването между различни езици – както в бизнеса и институциите, така и в лични ситуации.

Платформи за разработчици като Agora, Fishjam, LiveKit, Pipecat и Vision Agents вече използват Gemini Live API, за да улеснят създаването на приложения за гласов превод. Тези интеграции поемат сложната част – управлението на стрийминг инфраструктурата в реално време, така че разработчиците да могат да се концентрират върху потребителското изживяване, а не върху техническите детайли. Това ускорява внедряването на нови решения и прави технологията по-достъпна за различни платформи.