Как расшифровывать аудио в текст
Расшифровываем записи звонков, видео и голосовые сообщения с помощью нейросетей. Собрали в этом руководстве сразу несколько способов.
Присоединяйтесь к Нейроцеху — внутри ещё больше полезных гайдов. А ещё вебинары, уютное комьюнити, мастермайнды и всё, чтобы нейросети работали на вас, а не за вас.
Проще, но дороже
Мы в Нейроцехе знаем 4 сервиса, которые показывают хорошее качество расшифровки на русском языке, и за которые можно без проблем платить российской картой.
Mymeet
Ссылка: https://www.mymeet.ai/neurozeh
Самый дешевый сервис. Стоит 1-2 рубля за минуту расшифровки, умеет ходить на Zoom и Meet встречи и автоматически их стенографировать, дополнительно пишет краткое содержание расшифрованного файла.
Для участников Нейроцеха есть бонус — 500 минут бесплатной расшифровки, если зарегистрируетесь по нашей именной ссылке → https://www.mymeet.ai/neurozeh
Pisec
Ссылка: https://pisec.app
Есть бесплатный тариф, который работает очень медленно — расшифровку можно ждать больше 20 часов. Платный тариф стоит 2,8-4,3 рубля в минуту.
Для участников Нейроцеха есть бонус — 25% скидка на все оплаты (не только на первую) по промокоду NEUROZEH. С учетом скидки получается 2,1-3,2 рубля в минуту.
Shopot
Ссылка: https://shopot.ai
Продается по ежемесячной подписке. В зависимости от тарифа предлагает 2-50 часов в месяц по низкой цене, а расшифровки сверх тарифа будут стоить 4-8 рублей в минуту.
Бонусов пока что нет, но мы работаем над этим =)
Any2text
Ссылка: https://any2text.ru/
В этот сервис можно загружать не только файлы, но и ссылки на Ютуб, Рутьюб или Яндекс.Диск. В остальном сервис работает так же. Расшифровка стоит 4-5 рублей в минуту.
Для участников Нейроцеха есть бонус — 60 минут бесплатной расшифровки по промокоду NEUROZEH.
Speech2Text
Ссылка: https://speech2text.ru/?r=BlJ5g2rKkk
Сервис для расшифровки аудио и видео в текст — со знаками препинания, абзацами и разделением на спикеров.
Бонус — 6 часов бесплатной расшифровки. Сгорает через 2 недели после регистрации. Чтобы активировать бонус, зарегистрируйтесь в сервисе по нашей партнерской ссылке.
Все сервисы можно потестить бесплатно, чтобы выбрать тот, качество расшифровки которого вам больше нравится.
Нет смысла писать подробную инструкцию по каждому сервису, все работают по одному принципу:
- Регистрируетесь
- Оплачиваете тариф на определенное количество минут расшировки
- Загружаете аудио- или видео-файл
- Получаете транскрибацию с разделением на спикеров

Полностью бесплатно, но с нюансами
Здесь есть 2 варианта:
- найти модельку Whisper на HuggingFace;
- воспользоваться нейросетью Gemini через AI Studio
Расшифровка через Whisper
У OpenAI (разработчик ChatGPT) есть нейросеть Whisper, которая хорошо расшифровывает аудио, в том числе на русском языке. Сама по себе нейросеть бесплатная, но ее нужно где-то запускать (об этом подробно расскажем в следующем разделе).
Чтобы быстро транскрибировать текст и не платить за это деньги, понадобится платформа HuggingFace.
На платформе в разделе Spaces нужно будет найти модель Whisper.

Открыть любую модель, загрузить туда аудио и начать обработку. Т. к. интерфейс во всех моделях будет одинаковый, покажем на примере одной:

Важно! Иногда Whisper на HuggingFace может не работать из-за большого наплыва пользователей. Исправить, это, к сожалению нельзя.
Расшифровка с помощью Gemini через AI Studio
Gemini — нейросеть от Google, которая умеет транскрибировать аудиозаписи. Плюс в том, что нейронка может распознавать длинные записи на десятки минут. А также предоставлять текст в том виде, в котором вы попросите: в виде простой транскрибации или с разделением на спикеров.
Работает все просто: открываете AI Studio → меняете модель 2.5 pro на 2.5 flash (но при желании можете оставить pro, flash просто сделает работу быстрее, качество при этом не пострадает). Затем загружаете нужное аудио в формате wav, mp3 или ogg и просите сделать транскрибацию простым промптом:
Сделай транскрибацию этой записи. Выпиши весь текст

Если хотите, чтобы нейронка сразу очистила и структурировала весь текст, попросите об этом в промпте:
Сделай транскрибацию этой записи. Выпиши весь текст. Очисти его от слов паразитов и междометия вроде а-а, ээ и так далее. Разбей готовый текст на абзацы.

Работатать в AI Studio можно бесплатно. В модели Flash не будет ограничений по количеству сообщений, в модели Pro можно будет отправить не более 50 сообщений в день.
Дешевле, но с нюансами (только для Mac)
Whisper можно запустить локально на своем компьютере — в этом случае все будет работать полностью бесплатно и без интернета. Но если компьютер слабый, то расшифровываться записи будут очень медленно.
Здесь есть опции: поискать готовое приложение с понятным интерфейсом или работать в терминале. Если вы не разработчик, то работа через терминал может выглядеть пугающе неудобно.

Начнем с простого способа — установка готового приложения. Я пользуюсь MacWhisper. В бесплатной версии можно расшифровывать аудио менее мощными моделями — они работают быстрее, но чаще ошибаются. Платная версия стоит $29 (разово, без подписок) и позволяет работать с самой большой моделью Whisper — Large. Она медленная, но гораздо точнее.

Минус у приложения только один — оно не умеет различать разных спикеров. Если вы пользуетесь им, чтобы расшифровать речь одного человека, проблем не будет. Если надо расшифровать диалог — потом будет тяжело понять, где чьи реплики, приложение никак их не размечает.
Подобное приложение есть и для Windows. Называется Whispertranscribe и стоит от $40 в месяц. На мой взгляд, подписка неоправданно дорогая и пользоваться сервисом нет смысла. Есть более дешевые аналоги;)
Рассказываем про нейросети в нашем телеграм-канале «Нейроцех» — самые трендовые нейронки, интересные способы их применения и всё, что нужно знать про ИИ в одном месте. Подписывайтесь!
Сложнее, но бесплатно
Хардкорный способ — запустить Whisper самостоятельно через терминал или в Google Colab. В этом случае вам вообще не придется платить, у вас не будет никаких ограничений, но процесс настройки не самый простой.
Мне больше нравится Google Colab — в нем разработчики создают заранее заготовленные наборы команд и инструкции к ним. Вам остается только запускать команды, самостоятельно ничего вводить в терминале не надо.
Я создал простенький Colab без распознавания спикеров. В нем вы сможете расшифровывать аудио и видео и сохранять результат в txt-формате
Откройте Colab
Там внутри уже есть инструкции, вам просто остается им следовать. На всякий случай продублирую здесь со скриншотами.
Создайте копию на своем ГуглДиске: «Файл → сохранить копию на Диске».
Дальше вам надо запустить команду, которая установит Whisper в Google Colab. Наведите на нее курсор и нажмите на трегольничек «Старт».

Подождите, пока команда выполнится — слева от нее появится зеленая галочка.
Теперь загрузите файл, который хотите расшифровывать. Нажмите на значок папки в меню слева и перетащите туда свой файл.

Нажмите правой кнопкой мышки на загруженный файл и выберите «Скопировать путь к файлу» в меню.
Полученный путь вставьте в кавычки в команде на следующем шаге и запустите ее.

Подождите, пока Whisper все расшифрует. Полученный текст можно скопировать прямо из поля ниже.

Либо вы можете скачать файл в формате txt — он будет там же, куда вы загружали аудио для расшифровки.
Готово, вы теперь вы можете пользоваться Whisper сколько угодно и бесплатно.
Таким же способом в Google Colab можно запускать скрипты, которые умеют распознавать спикеров. Скоро мы сделаем такой шаблон и обновим этот гайд.
Как экономить много денег и кредитов на транскрибации аудио
Если вы ускорите аудио в 2 раза и закинете его в любую модель для транскрибации речи в текст (я тестировал Gemini и Whisper) — то получите результат в несколько раз дешевле и потратите на работу в 2 раза меньше токенов. То есть сильно сэкономите время и деньги. И при этом не потеряете в качестве!


Важно! Быстрее 2х лучше не ускорять, может повлиять на качество
Ещё больше полезных гайдов о работе с нейросетями для резидентов Нейроцеха. А ещё вебинары и мастермайнды, чтобы решать конкретные задачи. Вступайте в Нейроцех по ссылке.