Как безплатно да конвертираме аудио в текст с помощта на AI

Мария Иванова Последна промяна на 15 юли 2024 в 19:42 15177 0

Снимка Kelly Sikkema/Unsplash

Как да правим снимки с телефона, без да използваме екрана

13/07/2026

Как да стартираме уебсайт с AI само за няколко минути

През последните години изкуственият интелект (AI) надхвърли първоначалната си функция за задвижване на гласови асистенти като Alexa, Siri и Google Assistant и се превърна в мощен инструмент за генериране на снимки и видеоклипове, писане на код и автоматично преобразуване на аудио в текст. Последното приложение го прави полезен инструмент за журналисти, преводачи, създатели на съдържание, както и за всеки, който се нуждае от бързи и точни транскрипции на аудио, независимо дали става въпрос за срещи, интервюта, лекции или гласови бележки.

Популярни услуги в сферата, като Rev и Happy Scribe, предлагат ограничен брой безплатни транскрипции, след което таксуват за допълнителни услуги. Съществуват и напълно безплатни варианти, като разработения от OpenAI инструмент с отворен код - Whisper. Той е достъпен за всички, без ограничения или такси, и може да се използва за транскрибиране на различни видове аудио записи.

Whisper може да бъде използван чрез уеб версията му, хоствана на Hugging Face. Въпреки че това е удобен вариант, през пиковите часове може да е претоварено, което води до по-дълго време за транскрипция. За тези, които имат нужда от по-бързо преобразуване или конфиденциалност, има възможност за инсталиране на софтуера локално на Windows. Този вариант обаче изисква мощен компютър, способен да се справи с изискванията за обработка на данни от AI.

Онлайн версия на Whisper

Както вече споменахме, Hugging Face предлага удобен начин за използване на Whisper, директно в браузъра, без дори да е необходима регистрация на акаунт. За целта отворете Whisper на Hugging Face и изберете дали искате да заредите предварително записан аудио файл от вашия компютър или да запишете реч директно в приложението. Важно е обаче да имате предвид, че качени в уеб версията на Whisper, вашите аудиозаписи може да бъдат използвани за обучение на бъдещи модели на изкуствен интелект.

За да качите и обработите аудио файл, следвайте следните стъпки:

Отворете раздела “Аудио Файл”;
Изберете Click to Upload (“Кликнете, за да качите”);
Изберете аудио файла от компютъра си;
Поставете отметка в квадратчето “Транскрибирай”;
Щракнете върху Submit (“Изпращане”).

След няколко минути ще видите генерирания текст в дясната част на екрана. Времето за обработка варира в зависимост от дължината на файла и от това колко натоварени са сървърите на Hugging Face в момента. Тъй като това е безплатна услуга, отворена за всички, тя е и много популярна,така че може да се наложи да чакате доста време, докато файловете преминат през опашката.

В интерфейса на приложението ще откриете още няколко полезни инструмента. Ако щракнете например върху малката икона с писалка точно над лентата за възпроизвеждане на аудио, можете да отрежете началото и края на записа. Тази функция е удобна, ако трябва да премахнете прекъсвания или маловажни части от аудиото.

Можете също да преминете към раздела “Микрофон”, за да запишете аудио директно в интерфейса на Whisper, или да използвате раздела YouTube, за да получите транскрипции на всеки видеоклип в популярната социална мрежа. Просто поставете URL адреса на видеоклипа и транскрибирането е готово да започне.

Whisper за Windows

Ако се сблъсквате с много забавяния в уеб приложението или просто искате да запазите транскрипцията си по-локална и частна, можете да свалите Whisper на компютър с Windows.

Необходими са графична карта, която поддръжка CUDA, с поне 4 GB VRAM, за да се справи с обработката на данни. Ако имате сравнително нова карта Nvidia, тя вероятно ще отговаря на изискванията.

Този процес обаче е много по-сложен и не предоставя много възможности за потребителски интерфейс, така че не е за всеки. За да инсталирате Whisper, потърсете "cmd" в менюто Start и отворете Command Prompt, след което въведете "pip install -U openai-whisper" и натиснете Enter. Когато инсталацията приключи, можете да транскрибирате файлове по следния начин:

Отворете папката с аудио файловете във File Explorer;
Щракнете върху адресната лента в горната част, въведете "cmd" и натиснете Enter;
Въведете "whisper", след това интервал, след това името на вашия аудио файл;
Натиснете отново Enter и обработката ще започне.

Текстът се показва на екрана и се записва като серия от текстови файлове в същата папка като аудиото. Ако трябва да конвертирате няколко файла едновременно, просто ги избройте всички след командата "whisper", като ги разделяте с интервали.

Други безплатни инструменти за транскрибиране

Има и други безплатни онлайн инструменти за транскрибиране с помощта на изкуствен интелект. Едни от най-популярните сред тях са:

Google Transcribe

Безплатната услуга на Google за транскрибиране на аудио и видео файлове поддържа над 125 езика и може да транскрибира както реч, така и музика. Също както при Whisper, можете да качвате аудио или видео файлове директно в уебсайта на Google Transcribe, или да инсталирате софтуера на вашия компютър за по-бързи транскрипции.

Otter.ai

Безплатният план на Otter.ai предлага 30 минути транскрипции на месец. Услугата е известна със своята висока точност и възможност за редактиране на транскрипциите в реално време.

Amberscript

Amberscript има безплатен план, позволяващ транскрибиране до десет минути аудио на месец. Инструментът е лесен за използване и предлага редица функции, като например автоматично разпознаване на говорещия и маркиране на времеви кодове.

Trint

Trint предлага безплатен план, който позволява транскрибиране на до пет минути аудио на месец. Услугата е известна със своята висока точност и възможност за експортиране на транскрипции в различни формати.

Rev

Безплатният пробен период на Rev позволява транскрибиране на до десет минути аудио. Инструментът предоставя възможност за поръчка на професионални транскрипции.

Безплатен софтуер

Освен изброените онлайн инструменти, можете да използвате и безплатен софтуер за транскрибиране. Някои популярни програми са:
Web Speech API - безплатен JavaScript API, който ви позволява да транскрибирате аудио в реално време. Той е подходящ за случаи, изискващи незабавна транскрипция, като например диктовка, гласово управление или превод на живо.

Vosk - безплатен софтуер с отворен код за транскрибиране на офлайн аудио. Подходящ е за транскрибиране на лични записи, лекции или други аудио материали, които не изискват незабавна обработка.

Julius - е друг популярен безплатен софтуер за транскрибиране, който поддържа множество езици и диалекти. Той е подходящ за изследователи, лингвисти и преводачи, които се нуждаят от точни транскрипции на аудио материали за своите проучвания или проекти.