Как превратить голос в текст: тестируем 6 сервисов для расшифровки

Как превратить голос в текст: тестируем 6 сервисов для расшифровки

51
Аватар автора

Дмитрий Кузьмин

тестировал голосовой ввод

Страница автора

Я работаю с текстом и мечтаю о программе, которая сможет превратить голос в напечатанные слова.

Например, расшифрует за меня интервью длиной в несколько часов. Или позволит наговорить идеи, а в ответ пришлет заметку. Наконец, «напишет» за меня смс: поймет несколько обрывистых фраз и отправит адресату текст — потому что голосовые сообщения любят не все.

Я протестировал 6 таких сервисов: наговорил один и тот же текст, а потом сравнил результаты. Я использовал два способа: сначала давал программе послушать и расшифровать живой голос, а потом — в записи.

Текст для теста

Вот текст для теста: «Привет. Это тестовая запись для статьи об инструментах, которые умеют превращать голос в текст. Как думаете, этот сервис справится? Распознает интонацию вопроса и, например, числа — один, два, три? Вот что получилось».

Google Keep

Где работает: Android, iOS
Сколько стоит: бесплатно

Что умеет. Это приложение для создания и хранения заметок можно использовать как расшифровщик. Если на главном экране нажать на иконку микрофона и начать говорить, то сервис будет переводить звук в текст — это называется транскрибацией. Загрузить и расшифровать аудиофайл не получится.

У сервиса есть еще один минус: запись останавливается, если молчать две-три секунды, поэтому расшифровывать длинные интервью не получится. Разве что делать это небольшими кусками. Наговорить несколько идей и получить их в блокноте получится отлично.

Результат. Я проверил два способа: наговорил текст самостоятельно и включил запись того же текста через колонку — никакой разницы нет. Вышло хорошо: сервис не распознал только знаки препинания и напечатал числа без пробелов.

Таким получился текст в результате расшифровки Google Keep
Таким получился текст в результате расшифровки Google Keep

Сообщения «Вконтакте»

Где работает: Android, iOS
Сколько стоит: бесплатно

Что умеет. В мобильном приложении соцсеть умеет расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе.

Для этого зайдите в раздел с диалогами и в поисковом окне вбейте свое имя. Дальше зажмите значок микрофона и наговорите сообщение. Когда оно появится в диалоговом окне, нажмите на «Аа» справа от записи.

Чтобы расшифровать голосовое сообщение, нажмите на «Аа»
Чтобы расшифровать голосовое сообщение, нажмите на «Аа»

Результат. «Вконтакте» расшифровал живой голос с ошибками в склонениях и перепутал несколько слов: например, «сервис» услышал как «серый». Но справился с числами. Записанный и пропущенный через колонку голос сервис расшифровал намного хуже — получился набор слов, который нужно буквально переписывать.

Вот результат расшифровки живого голоса
Вот результат расшифровки живого голоса
А это голос, пропущенный через колонку
А это голос, пропущенный через колонку
1/2
Вот результат расшифровки живого голоса

Transcribe

Где работает: в онлайне
Сколько стоит: 20 $⁣ (1519 ₽) в год + 6 $⁣ (455 ₽) за час расшифровки
Демодоступ: 7 дней и 1 минута расшифровки

Что умеет. Программа может расшифровать загруженный файл, ролик с «Ютуба» и живую речь. Еще можно регулировать скорость воспроизведения, в том числе игровыми педалями.

Результат. Транскрибация получилась на уровне Google Keep: сервис вместо слова «например» написал «имя», не поставил пробелы между числами. Зато он определил первое предложение и поставил восклицательный знак. Аналогичный результат и с воспроизведением записанного голоса.

Это голосовой ввод
Это голосовой ввод
А это расшифровка записанного голоса
А это расшифровка записанного голоса

Голосовой блокнот

Где работает: в онлайне, Android, iOS
Сколько стоит: бесплатно

Что умеет. Сервис распознает голосовой ввод: можно надиктовывать самостоятельно, можно воспроизводить диктофонную запись.

Еще в «Голосовом блокноте» есть «панель транскрибации» — так разработчики называют специальную область на сайте, куда можно встроить ролик с «Ютуба» или загрузить файл с аудио или видео. Но расшифровывать речь программа будет во время воспроизведения — то есть никакой экономии времени: загрузить два часа интервью и сразу получить текст не выйдет.

Когда я тестировал сервис, эти функции не заработали. Загрузить записанный на диктофон файл сервис не дал. Еще я попробовал обходной путь — выгрузил этот файл в облако и предложить сервису расшифровать его по ссылке, но тоже ничего не получилось.

Результат. Живой голос сервис расшифровал так же, как и воспроизведенный через колонку. Из ошибок — нет знаков препинания, все одним предложением. И никаких пробелов между числами.

Результат расшифровки живого голоса
Результат расшифровки живого голоса
Аналогичный текст — ввод из включенного файла
Аналогичный текст — ввод из включенного файла

Telegram Premium

Где работает: в онлайне, iOS, Android
Сколько стоит: 299 ₽ в месяц через бота

Что умеет. Мессенджер может расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе. Для этого перейдите в сохраненные сообщения, нажмите на значок микрофона, свайпните вверх и начинайте говорить. Когда сообщение появится в диалоговом окне, нажмите на «А» со стрелочкой справа от записи.

Сторонние аудио сервис не расшифрует, но его можно использовать для записи интервью или других диалогов: «Телеграм» поддерживает длинные войсы. Текст пополняется в прямом эфире — он будет добавляться по мере расшифровки.

Результат. Функция расшифровывает аудиосообщения довольно точно и справляется с числами. Но мессенджер ошибся в форме слова «распознавать» и не везде верно расставил знаки препинания. Записанный и пропущенный через колонку голос сервис расшифровал хуже — получился набор слов, но его все равно можно понять.

Живое аудио
Живое аудио
Голос через колонку
Голос через колонку
1/2
Живое аудио

SpeechText.ai

Где работает: в онлайне

Сколько стоит: 15 минут — бесплатно, далее 10 $⁣ (700 ₽) за 180 минут

Что умеет. Транскрибатор, который работает с помощью нейросетей. Расшифровывает только загруженные файлы — нужно будет записывать голос заранее, а потом загружать файл на сайт. Зато удобен для расшифровки интервью.

Поддерживает сразу 30 языков, включая русский. Можно выбрать тематику аудио, а также его вид: интервью, телефонный звонок, конференция и так далее.

Результат. Двадцатисекундное аудио расшифровывает за несколько секунд. Сервис неплохо справился: почти не ошибся в словах, распознал цифры, расставил знаки препинания и пробелы. Но допустил грамматическую ошибку и добавил лишнюю цифру. Пользоваться можно, но потом придется редактировать.

Результат расшифровки
Результат расшифровки

Какой сервис расшифровки выбрать

СервисЦенаКак расшифровал живой голосЗаписанный голосЗагруженный аудиофайл
Google KeepБесплатно👍 👍 👍👍 👍 👍
Сообщения «Вконтакте»Бесплатно👍👎
Transcribe1518 ₽ в год + 455 ₽ за час👍 👍 👍👍 👍 👍👍 👍 👍
Голосовой блокнотБесплатно👍 👍 👍👍 👍 👍
Telegram Premium299 ₽ в месяц👍 👍👍
SpeechText.ai15 минут бесплатно👍 👍 👍👍 👍 👍👍 👍 👍

Какой сервис расшифровки выбрать

Google Keep
ЦенаБесплатно
Как расшифровал живой голос👍 👍 👍
Записанный голос👍 👍 👍
Загруженный аудиофайл
Сообщения «Вконтакте»
ЦенаБесплатно
Как расшифровал живой голос👍
Записанный голос👎
Загруженный аудиофайл
Transcribe
Цена1518 ₽ в год + 455 ₽ за час
Как расшифровал живой голос👍 👍 👍
Записанный голос👍 👍 👍
Загруженный аудиофайл👍 👍 👍
Голосовой блокнот
ЦенаБесплатно
Как расшифровал живой голос👍 👍 👍
Записанный голос👍 👍 👍
Загруженный аудиофайл
Telegram Premium
Цена299 ₽ в месяц
Как расшифровал живой голос👍 👍
Записанный голос👍
Загруженный аудиофайл
SpeechText.ai
Цена15 минут бесплатно
Как расшифровал живой голос👍 👍 👍
Записанный голос👍 👍 👍
Загруженный аудиофайл👍 👍 👍
Дмитрий КузьминКакие сервисы для расшифровки пробовали?
  • Alexey PolevНе знаю как сейчас, раньше в Google Keep можно было надиктовывать знаки препинания. "один запятая два запятая три восклицательный знак"6
  • Artur BikmukhametovА Гугл-Докс? Там тоже можно надиктовывать2
  • SGAlexey, и сейчас так же. Понимает практически все знаки, только тире заменяет дефисом. (андроид 9.0). А для пробелов надо просто сделать паузу при читке.1
  • Дмитрий ЛяминЯ пользовался предустановленным диктофоном от Samsung. Он бесплатен и был предустановленным на телефон, но как-то не особо пошло. Надо себя приучить этим пользоваться, хорошо экономит время на печать, а когда проговариваешь мысли, они начинают как-то иначе восприниматься. Спасибо за статью.0
  • Nikolay NikolaevНе помогло. Всё жду когда у стандартного диктофона Google Pixel появится русский язык распознавания. Уже год точно там при нажатии на единственный возможный язык - английский, появляется надпись, что скоро появятся другие языки.0
  • Nick ShatunovА простое распознавание в любое поле ввода может делать Google Клавиатура4
  • Сержант ПепперДля компа в Google.Docs есть инструмент для транскрибирования аудио. Причём, ему можно скармливать как "живую" речь с микрофона, так и аудиопоток из любого проигрывателя, т.е., запускаешь аудиофайл на проигрывание и Google.Docs расшифровывает его в реальном времени. Движок там, скорее всего, такой же, как у Google Keep, но нет проблем с паузами. Единственная особенность - окно с Google.Docs должно быть постоянно активно (иметь фокус), расшифровка останавливается даже когда запускается скринсейвер.4
  • Алексей МакеевПриложение "Прямая расшифровка" от Google. Идеально для конференций, интервью, лекций. Приложение умеет определять не только слова, но и звуки. Например пишет "аплодисменты", когда они звучат2
  • Дениска, но не редискавообщем, как я понял нет бесплатного удобного инструмента(. Придется смотреть двухчасовые выпуски дудя(. Я уж размечтался как было б классно текстом прочитать за 30 минут..) загрузил ссылку с ютуба и вуаля появилась его печатная версия. Эх, мечты)0
  • Михаил ЗарапинНе люблю когда за мной подглядывают. Ищу рабочий софт для работы офлайн. Достойного пока не обнаружил.0
  • Ольга БондарGoogle docs0
  • Данил РадецкийДенис, для Дудя можно включить субтитры (ютуб делает автоматически) а потом нажать три точки под видео и выбрать «посмотреть расшифровку». Работает в версии для компов, с мобильного надо в браузере запросить «версию для ПК»3
  • Дениска, но не редискаДанил, читал про это,да. Но там не понятно к сожалению кто конкретно произносит фразу(. Просто единый текст.0
  • uyguyghttps://www.naturalreaders.com/online/ поддерживает все языки, платно, работает только онлайн, интерфейс на английском (можно перевести через гугл переводчик достаточно вставить ссылку)0
  • Sergey PopovМожно, также, использовать связку "Телефон" -> "Компьютер". Т.е., производить голосовой ввод текста/данных с телефона (под Android) - в программы MS Word (Windows), MS Excel (Windows) и текстовый редактор (Windows). См., например, здесь: http://roamer55.ru/!_info/spDSW/0
  • Sergey PopovМожно, также, использовать связку "Телефон" -> "Компьютер". Т.е., производить голосовой ввод текста/данных с телефона (под Android) - в программы MS Word (Windows), MS Excel (Windows) и текстовый редактор (Windows). См., например, здесь: http://roamer55.ru/!_info/spDSW/0
  • Интернет-кафе "Навигатор"1. Надиктовываю сообщения в WhatsApp и отправляю на свой другой номер, открытый в Web WhatsApp. 2. На компе использую расширение в браузере Войснот II - Голос в текст. Оба способа дают превосходный результат, если не "жевать" текст и четко проговаривать окончания. Знаки пунктуации WhatsApp прекрасно воспринимает с голоса.0
  • Илья НенашевЕсть два бота в Телеграм: @voicybot и @VoiceMsgBot Первый мне чуть больше понравился, но оба лажают1
  • Илья НенашевДык это не ватсап, это Войснот0
  • DenisAlexey, У Google ужасное качество распознания русских текстов, особенно если это запись телефонного разговора или любая речь записанная не поставленным голосом. Вот молодой сервис по транскрибации речи: https://apihost.ru/speech-to-text его нет в обзоре. Большой плюс этого сервиса помимо качества распознания это автоматическая расстановка знаков пунктуации. Всем добра :)1
  • Александра РаснюкВот этим пользуюсь https://voicebot.su0
  • Валерий ГерасимовДенис, а зачем его смотреть, или читать?2
  • Дениска, но не редискаВалерий, есть люди или темы которые интересно было б посмотреть0
  • Валерий ГерасимовДенис, ну не у Дудя же смотреть, так можно и до Гордона дойти. После его фильма о Беслане или интервью Серябрякова, как можно это убожество воспринимать?1
  • Lana GoldleonДенис, нашли кого смотреть- Дудя))) ещё и конспектировать его)3
  • Елена ЕленаГолосовой блокнот ютьюб-файлы не расшифровывает. У меня этот сервис вообще не работает, выдает ошибку0
  • Андрей ГлуховМне понравился результат распознания у iOS приложения Transcribe https://apps.apple.com/ru/app/transcribe-речь-в-текст/id12413424610
  • Елена БорголоваDenis, забыли написать, что это платный сервис.0
  • Валерий ГерасимовАлександра, так это же сервис для обратного, перевода текста в речь.0
  • Евгения Л.Добрый день! Какое-то время назад приходилось регулярно делать транскрипции англоязычных надиктовок, интервью и просто совещаний своего босса. Скажу честно, искала программы, которые могли бы помочь - где-то два года назад выяснила, что почти все делают жуткие ляпы, иногда такие, что приходилось все перепечатывать в чистую. Мало того, даже некоторые профессиональные конторы не брали у меня часть записей (а у меня пару-тройку раз был соблазн найти кого-то, кто может помочь, просто от усталости). Нет, если запись сделана в идеальном качестве, голос четкий, говорит только один человек - проблем нет. А мне иногда присылали записи с диктофона с подсевшей батарейкой, с интервью, проведенного в ресторане, где слышно, как стучат столовые приборы тех, кто говори, лучше чем их речь. Мало того, например, у моего английский с французским акцентом, часть его гостей были с японским, немецким или китайским акцентом... Так что, конечно, в наше время стали появляться неплохие программы и некоторые трюки для ускоренного создания транскриптов, но до идеала далеко. Удачи всем!0
  • Bobbi BraunМне нравится https://voicebot.su. Устраивает на 100%. Работает без дополнительных настроек и требований, запускается даже на слабом компьютере. Текст озвучивается голосом на русском, казахском, турецком или английском языке.0
  • Юрий ЗалакаускDenis, это же платная программа по вашей ссылке, порядка 3 руб за минуту, зачем? если есть и бесплатные0
  • Юрий Залакаускhttps://talktyper.com/ru/index.html0
  • Борис ИвановЗаказываю у фрилансеров через бот в телеге @GoTranscribe_BOT. Качество на высоте, но не бесплатно))0
  • Михаил НовосёловDenis, Спасибо, то, что искал -- расшифровка аудио файла, пусть и за деньги0
  • Семён ОвчинниковНе какие0
  • Семён ОвчинниковМне нужно приложение на телефон. Чтобы голосовые сообщения превращались в текстовые0
  • Alex Dhttps://converter.app/mp3-to-text/ бесплатный онлайн-сервис, шустро обработал аудиозапись 2-х часового семинара доктора Лисенковой про БАД от 19.07.2023) по сравнению с ним все сервисы из данной статьи – не тянут4
  • Раиль БПо моему не хватает yazapishu.ru Качество на высоте, расставляет точки и запятые, делит предложения. И цена небольшая, можно бесплатно тестить0
  • Дмитрий ГорбуновВот очень сильная нейронка - https://huggingface.co/spaces/sanchit-gandhi/whisper-jax - можно закидывать звуковые файлы и получить текст, высокая точность0
  • Роман ПетровСпасибо Дмитрий🙏🏻 Зарегался на SpeechText.Ai Жаль что у них не нашёл функцию начитать текст( Только загружать в мп3 А у меня диктофон в мп4 записывает( Но СПАСИБО🙏🏻🙏🏻🙏🏻 Пригодится0
  • Андрей СегренёвПользуюсь для расшифровки интервью сервисом https://speech2text.ru Очень качественно распознает, делит на собеседников. Есть бесплатный тариф кстати.0
  • Сергей ЗамараевДмитрий, спасибо за обзор. Но странно что так мало сервисов. В ru еще есть any2text. Там и качество отлично, файлы можно кидать любые. Даже ссылку на ютуб, ядиск. Из плюсов не нужно регаться, чтобы попробовать и получить результат. Тарификация поминутная.0
  • Полина КинзяAlex, миллион благодарностей. Быстро и бесплатно главное!!!0
  • Алексей ОстапенкоЯ наткнулся на статью на эту же тему: https://vc.ru/services/914195-7-servisov-transkribacii-sravnivayu-po-skorosti-cene-i-kolichestvu-oshibok Из нее вынес, что самый приемлемый( в смысле, что он бесплатный, хоть после 30 мин и будет работать медленно, это "Писец".0
  • Алексей ОстапенкоГолосовой Блокнот хорош тем, что при записи голоса не выключается на паузах, а работает сколько нужно, и можно сходу, нажимая на соответствующие кнопки, или на клавиатуре, проставлять знаки препинания и менять регистр заглавных букв.0
  • Алексей ОстапенкоОнлайн-программа "Писец" 30 минут переводит аудио файлы на высокой скорости, затем медленно, но бесплатно и качественно.0
  • Андрей СегренёвМне понравился speech2text.ru Дают три часа бесплатно при регистрации.0
  • Егор Балакинищу0
  • Денис МельницкийAlex, Спасибо тебе, добрый человек!0