Я работаю с текстом и мечтаю о программе, которая сможет превратить голос в напечатанные слова.
Например, расшифрует за меня интервью длиной в несколько часов. Или позволит наговорить идеи, а в ответ пришлет заметку. Наконец, «напишет» за меня смс: поймет несколько обрывистых фраз и отправит адресату текст — потому что голосовые сообщения любят не все.
Я протестировал 5 таких сервисов: наговорил один и тот же текст, а потом сравнил результаты. Я использовал два способа: сначала давал программе послушать и расшифровать живой голос, а потом — в записи.
Текст для теста
Вот текст для теста: «Привет. Это тестовая запись для статьи об инструментах, которые умеют превращать голос в текст. Как думаете, этот сервис справится? Распознает интонацию вопроса и, например, числа — один, два, три? Вот что получилось».
Google Keep
Где работает: Android, iOS
Сколько стоит: бесплатно
Что умеет. Это приложение для создания и хранения заметок можно использовать как расшифровщик. Если на главном экране нажать на иконку микрофона и начать говорить, то сервис будет переводить звук в текст — это называется транскрибацией. Загрузить и расшифровать аудиофайл не получится.
У сервиса есть еще один минус: запись останавливается, если молчать две-три секунды, поэтому расшифровывать длинные интервью не получится. Разве что делать это небольшими кусками. Наговорить несколько идей и получить их в блокноте получится отлично.
Результат. Я проверил два способа: наговорил текст самостоятельно и включил запись того же текста через колонку — никакой разницы нет. Вышло хорошо: сервис не распознал только знаки препинания и напечатал числа без пробелов.

Сообщения «Вконтакте»
Где работает: Android, iOS
Сколько стоит: бесплатно
Что умеет. В мобильном приложении соцсеть умеет расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе.
Для этого зайдите в раздел с диалогами и в поисковом окне вбейте свое имя. Дальше зажмите значок микрофона и наговорите сообщение. Когда оно появится в диалоговом окне, нажмите на «Аа» справа от записи.

Результат. «Вконтакте» расшифровал живой голос с ошибками в склонениях и перепутал несколько слов: например, «сервис» услышал как «серый». Но справился с числами. Записанный и пропущенный через колонку голос сервис расшифровал намного хуже — получился набор слов, который нужно буквально переписывать.
![]() | ![]() |


RealSpeaker
Где работает: в онлайне
Сколько стоит: 8 Р за минуту
Что умеет. Сервис расшифровывает загруженные файлы — то есть сначала нужно записать голос на телефон, сохранить аудио, а потом расшифровать. Надиктовать с одновременной транскрибацией не получится. Бесплатно можно расшифровать файл длиной в полторы минуты.
Минус сервиса — ваш файл оказывается в общем списке расшифровок всех пользователей. Даже если сразу после прочтения его удалить, какое-то время он будет доступен кому угодно — то есть никакой приватности.

Результат. Сервис неплохо справился: почти не ошибся в словах, распознал цифры, но не поставил пробелы. Пользоваться можно, но потом придется много редактировать.

Transcribe
Где работает: в онлайне
Сколько стоит: 20 $ (1519 Р) в год + 6 $ (455 Р) за час расшифровки
Демодоступ: 7 дней и 1 минута расшифровки
Что умеет. Программа может расшифровать загруженный файл, ролик с «Ютуба» и живую речь. Еще можно регулировать скорость воспроизведения, в том числе игровыми педалями.
Результат. Транскрибация получилась на уровне Google Keep: сервис вместо слова «например» написал «имя», не поставил пробелы между числами. Зато он определил первое предложение и поставил восклицательный знак. Аналогичный результат и с воспроизведением записанного голоса.


Голосовой блокнот
Где работает: в онлайне, Android, iOS
Сколько стоит: бесплатно
Что умеет. Сервис распознает голосовой ввод: можно надиктовывать самостоятельно, можно воспроизводить диктофонную запись.
Еще в «Голосовом блокноте» есть «панель транскрибации» — так разработчики называют специальную область на сайте, куда можно встроить ролик с «Ютуба» или загрузить файл с аудио или видео. Но расшифровывать речь программа будет во время воспроизведения — то есть никакой экономии времени: загрузить два часа интервью и сразу получить текст не выйдет.
Когда я тестировал сервис, эти функции не заработали. Загрузить записанный на диктофон файл сервис не дал. Еще я попробовал обходной путь — выгрузил этот файл в облако и предложить сервису расшифровать его по ссылке, но тоже ничего не получилось.
Результат. Живой голос сервис расшифровал так же, как и воспроизведенный через колонку. Из ошибок — нет знаков препинания, все одним предложением. И никаких пробелов между числами.


Какой сервис расшифровки выбрать
Сервис | Цена | Как расшифровал живой голос | Записанный голос | Загруженный аудиофайл |
---|---|---|---|---|
Google Keep | Бесплатно | 👍 👍 👍 | 👍 👍 👍 | ❌ |
Сообщения «Вконтакте» | Бесплатно | 👍 | 👎 | ❌ |
RealSpeaker | 8 Р за минуту | ❌ | ❌ | 👍 |
Transcribe | 1518 Р в год + 455 Р за час | 👍 👍 👍 | 👍 👍 👍 | 👍 👍 👍 |
Голосовой блокнот | Бесплатно | 👍 👍 👍 | 👍 👍 👍 | ❌ |
Не знаю как сейчас, раньше в Google Keep можно было надиктовывать знаки препинания. "один запятая два запятая три восклицательный знак"
Alexey, и сейчас так же. Понимает практически все знаки, только тире заменяет дефисом. (андроид 9.0). А для пробелов надо просто сделать паузу при читке.
А простое распознавание в любое поле ввода может делать Google Клавиатура
А Гугл-Докс? Там тоже можно надиктовывать
Для компа в Google.Docs есть инструмент для транскрибирования аудио. Причём, ему можно скармливать как "живую" речь с микрофона, так и аудиопоток из любого проигрывателя, т.е., запускаешь аудиофайл на проигрывание и Google.Docs расшифровывает его в реальном времени. Движок там, скорее всего, такой же, как у Google Keep, но нет проблем с паузами. Единственная особенность - окно с Google.Docs должно быть постоянно активно (иметь фокус), расшифровка останавливается даже когда запускается скринсейвер.
Я пользовался предустановленным диктофоном от Samsung. Он бесплатен и был предустановленным на телефон, но как-то не особо пошло. Надо себя приучить этим пользоваться, хорошо экономит время на печать, а когда проговариваешь мысли, они начинают как-то иначе восприниматься.
Спасибо за статью.
Опять мешки кожаные повылазили! Ну сколько можно? И все же текст в голос приятнее. Адьёс, организмы!
Не помогло. Всё жду когда у стандартного диктофона Google Pixel появится русский язык распознавания.
Уже год точно там при нажатии на единственный возможный язык - английский, появляется надпись, что скоро появятся другие языки.
Приложение "Прямая расшифровка" от Google. Идеально для конференций, интервью, лекций. Приложение умеет определять не только слова, но и звуки. Например пишет "аплодисменты", когда они звучат
вообщем, как я понял нет бесплатного удобного инструмента(. Придется смотреть двухчасовые выпуски дудя(. Я уж размечтался как было б классно текстом прочитать за 30 минут..) загрузил ссылку с ютуба и вуаля появилась его печатная версия. Эх, мечты)
Денис, для Дудя можно включить субтитры (ютуб делает автоматически) а потом нажать три точки под видео и выбрать «посмотреть расшифровку». Работает в версии для компов, с мобильного надо в браузере запросить «версию для ПК»
Данил, читал про это,да. Но там не понятно к сожалению кто конкретно произносит фразу(. Просто единый текст.
Не люблю когда за мной подглядывают. Ищу рабочий софт для работы офлайн. Достойного пока не обнаружил.
Google docs