Как расшифровывать аудио в текст
Расшифровываем записи звонков, видео и голосовые сообщения с помощью нейросетей. Собрали в этом руководстве сразу несколько способов.
Присоединяйтесь к Нейроцеху — внутри ещё больше полезных гайдов. А ещё вебинары, уютное комьюнити, мастермайнды и всё, чтобы нейросети работали на вас, а не за вас.
Проще, но дороже
Мы в Нейроцехе знаем 4 сервиса, которые показывают хорошее качество расшифровки на русском языке, и за которые можно без проблем платить российской картой.
https://www.mymeet.ai/neurozeh
Самый дешевый сервис. Стоит 1-2 рубля за минуту расшифровки, умеет ходить на Zoom и Meet встречи и автоматически их стенографировать, дополнительно пишет краткое содержание расшифрованного файла.
Для участников Нейроцеха есть бонус — 500 минут бесплатной расшифровки, если зарегистрируетесь по нашей именной ссылке → https://www.mymeet.ai/neurozeh
https://pisec.app
Есть бесплатный тариф, который работает очень медленно — расшифровку можно ждать больше 20 часов. Платный тариф стоит 2,8-4,3 рубля в минуту.
Для участников Нейроцеха есть бонус — 25% скидка на все оплаты (не только на первую) по промокоду NEUROZEH. С учетом скидки получается 2,1-3,2 рубля в минуту.
https://shopot.ai
Продается по ежемесячной подписке. В зависимости от тарифа предлагает 2-50 часов в месяц по низкой цене, а расшифровки сверх тарифа будут стоить 4-8 рублей в минуту.
Бонусов пока что нет, но мы работаем над этим =)
https://any2text.ru/
В этот сервис можно загружать не только файлы, но и ссылки на Ютуб, Рутьюб или Яндекс.Диск. В остальном сервис работает так же. Расшифровка стоит 4-5 рублей в минуту.
Для участников Нейроцеха есть бонус — 60 минут бесплатной расшифровки по промокоду NEUROZEH.
Все сервисы можно потестить бесплатно, чтобы выбрать тот, качество расшифровки которого вам больше нравится.
Нет смысла писать подробную инструкцию по каждому сервису, все работают по одному принципу:
- Регистрируетесь
- Оплачиваете тариф на определенное количество минут расшировки
- Загружаете аудио- или видео-файл
- Получаете транскрибацию с разделением на спикеров
Дешевле, но с нюансами (только для Mac)
У OpenAI (разработчик ChatGPT) есть нейросеть Whisper, которая хорошо расшифровывает аудио, в том числе на русском языке. Сама по себе нейросеть бесплатная, но ее нужно где-то запускать.
Можно запустить локально на своем компьютере — в этом случае все будет работать полностью бесплатно и без интернета. Но если компьютер слабый, то расшифровываться записи будут очень медленно.
Здесь есть опции: поискать готовое приложение с понятным интерфейсом или работать в терминале. Если вы не разработчик, то работа через терминал может выглядеть пугающе неудобно.
Начнем с простого способа — установка готового приложения. Я пользуюсь MacWhisper. В бесплатной версии можно расшифровывать аудио менее мощными моделями — они работают быстрее, но чаще ошибаются. Платная версия стоит $29 (разово, без подписок) и позволяет работать с самой большой моделью Whisper — Large. Она медленная, но гораздо точнее.
Аналогов MacWhisper для Windows не нашел, поэтому если вы знаете, кидайте в комментарии, добавим в гайд.
Минус у приложения только один — оно не умеет различать разных спикеров. Если вы пользуетесь им, чтобы расшифровать речь одного человека, проблем не будет. Если надо расшифровать диалог — потом будет тяжело понять, где чьи реплики, приложение никак их не размечает.
Рассказываем про нейросети в нашем телеграм-канале «Нейроцех» — самые трендовые нейронки, интересные способы их применения и всё, что нужно знать про ИИ в одном месте. Подписывайтесь!
Сложнее, но бесплатно
Хардкорный способ — запустить Whisper самостоятельно через терминал или в Google Colab. В этом случае вам вообще не придется платить, у вас не будет никаких ограничений, но процесс настройки не самый простой.
Мне больше нравится Google Colab — в нем разработчики создают заранее заготовленные наборы команд и инструкции к ним. Вам остается только запускать команды, самостоятельно ничего вводить в терминале не надо.
Я создал простенький Colab без распознавания спикеров. В нем вы сможете расшифровывать аудио и видео и сохранять результат в txt-формате
Откройте Colab — https://colab.research.google.com/drive/1NtrV-7Iz3NFNJ7Z8lhUXfULaX1_Ex1Ku?usp=sharing
Там внутри уже есть инструкции, вам просто остается им следовать. На всякий случай продублирую здесь со скриншотами.
Создайте копию на своем ГуглДиске: «Файл → сохранить копию на Диске».
Дальше вам надо запустить команду, которая установит Whisper в Google Colab. Наведите на нее курсор и нажмите на трегольничек «Старт».
Подождите, пока команда выполнится — слева от нее появится зеленая галочка.
Теперь загрузите файл, который хотите расшифровывать. Нажмите на значок папки в меню слева и перетащите туда свой файл.
Нажмите правой кнопкой мышки на загруженный файл и выберите «Скопировать путь к файлу» в меню.
Полученный путь вставьте в кавычки в команде на следующем шаге и запустите ее.
Подождите, пока Whisper все расшифрует. Полученный текст можно скопировать прямо из поля ниже.
Либо вы можете скачать файл в формате txt — он будет там же, куда вы загружали аудио для расшифровки.
Готово, вы теперь вы можете пользоваться Whisper сколько угодно и бесплатно.
Таким же способом в Google Colab можно запускать скрипты, которые умеют распознавать спикеров. Скоро мы сделаем такой шаблон и обновим этот гайд.
А ещё?
Расшифровка с помощью WhisperJAX — в середине статьи.
Ещё больше полезных гайдов о работе с нейросетями для резидентов Нейроцеха. А ещё вебинары и мастермайнды, чтобы решать конкретные задачи. Вступайте в Нейроцех по ссылке.