Обзор сервисов автоматической транскрибации (стенографирования)
В условиях растущей потребности в быстром и точном преобразовании аудио- и видеозаписей в текст, специализированные платформы автотранскрибации становятся важным инструментом в работе исследовательских, журналистских, академических и корпоративных команд. Компанией ResearchView был проведен анализ сервисов автотранскрибации на русском языке с целью оценки их функционала и качества расшифровки.
В рамках данного обзора мы сравнили пять специализированных платформ, ориентированных на транскрибирование разговорной речи: Any2Text, Speech2Text, Teamlogs, WordVoice и Писец. В обзор не были включены универсальные платформы для преобразования разговорной речи в текст от таких компаний как Яндекс, Google, МТС и др. по следующим причинам:
1. Они не предназначены под транскрибирования длительной речи (более 1 часа) с участием нескольких спикеров (2, 5, 8 и более);
2. Они не поддерживают функции, важные для профессиональной и точной транскрибации аудиозаписей (например, экспорт с форматированием, разделение текста на спикеров, редактирование в личном кабинете по тайм-кодам и пр.);
3. Для работы с ними в удобном формате требуется дополнительная доработка и интеграция файлов.
Рассматриваемые платформы оценивались по нескольким критериям: стоимости расшифровки, качеству распознавания речи, возможности разделения на спикеров, возможности редактирования текста в личном кабинете, наличия тайм-кодов, форматам импорта и экспорта файлов и др. Подробная таблица представлена ниже.
Платформа |
ANY2TEXT |
SPEECH2TEXT |
TEAMLOGS |
WORDVOICE |
ПИСЕЦ |
Сайт |
https://any2text.ru/ |
https://speech2text.ru/ |
https://teamlogs.ru/ |
https://wordvoice.ru/ |
https://pisec.app/ |
Стоимость |
От 2,5 руб./мин |
От 2 руб./мин |
От 6 руб./мин |
7 руб./мин |
От 3,80 руб./мин. |
Бесплатный период |
15 минут |
15 минут в день или 3 часа при регистрации |
15 минут |
90 рублей / около 12 минут |
10 минут |
Разделения на спикеров |
Да |
Да |
Да |
Нет |
Да |
Поддерживаемые форматы |
MP3, MP4, M4A, OGG, WAV, FLAC, WMA, M4A, FLAC, AAC, WEBM |
mp3, ogg, wma и другие аудио-форматы |
MP3, MP4, M4A, OGG, WAV, FLAC, WMA, M4A, FLAC, AAC, WEBM |
mp3 mp4 m4a raw wav avi ogg a64 ac3 acm act adf ads mov dvd и др. |
WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3 |
Формат экспорта файлов |
DOCS, XLS, SRT (субтитры) |
DOCS |
DOCS, XLS, SRT (субтитры) |
TXT |
DOCS |
Тайм-коды |
Нет |
Да |
Да |
Да |
Да (только в файле) |
Редактирование в ЛК |
Нет |
Нет |
Да |
Да |
Нет |
Возможность прослушать фразу, нажав на неё, в ЛК |
Нет |
Да (нажав на тайм-код) |
Да |
Да (нажав на тайм-код) |
Нет |
Качество распознавания речи на русском языке (по 10-балльной шкале) |
5 |
7 |
7 |
6 |
4 |
Ниже представлено более подробное описание преимуществ и недостатков каждого сервиса автотранскрибации, которые мы отметили в ходе тестирования.
Any2Text
Преимущества:
• Поддерживает более 100 форматов для перевода аудио- и видеофайлов в текст;
• Определяет язык текста автоматически – распознаёт более 50 языков;
• Выделяет английские слова в русской речи;
• Сохраняет текст в 4-х форматах: txt, docs, xls, srt;
• Исправляет некоторые ошибки, допущенные в речи говорящего (оговорки или неправильное согласование).
Недостатки:
• Часто допускает ошибки в словах, неправильно их распознаёт (например, «общество знания» вместо «обществознание»; «узы» вместо «вузы» и т.д.);
• Не выгружает текст без обозначения спикеров и с необходимым форматированием;
• Не позволяет редактировать текст в ЛК;
• Не проставляет тайм-коды;
• Отсутствует интерактивный плеер;
• Не всегда правильно определяет спикеров.
Speech2Text
Преимущества:
• Проставляет тайм-коды в ЛК – можно на них нажать и прослушать текст от необходимого момента;
• Позволяет сохранять текст в форматах docs и srt;
• Разделяет текст на спикеров;
• Распознает более 20 языков;
• Позволяет добавлять аккаунты сотрудников, которые могут расходовать общий тариф минут.
Недостатки:
• Не позволяет редактировать текст в ЛК;
• Не всегда корректно распознаёт спикеров, может слова одного отнести к другому;
• Допускает пунктуационные, реже орфографические ошибки. В некоторых фрагментах текста полностью пропускает знаки препинания;
• Не всегда правильно распознает русские аббревиатуры и английские слова;
• Не выгружает текст с необходимым форматированием.
Teamlogs
Преимущества:
• Распознает 78 языков;
• Имеет интерактивный плеер – можно прослушать аудио с необходимого момента, нажав на слово в тексте;
• Выгружает файл с настраиваемым форматированием;
• Хорошо распознает спикеров;
• Позволяет редактировать файл в ЛК несколькими пользователями;
• Предоставляет общий аккаунт для компании с включением разных пользователей.
• Позволяет создавать и выгружать: резюме бесед, ответы на вопросы и пр.
Недостатки:
• Иногда вставляет фразы, которых не было в аудиозаписи («спасибо за субтитры…»);
• Иногда допускает орфографические и пунктуационные ошибки;
• Не всегда правильно распознаёт слова;
• Иногда относит реплики не к тем спикерам, кто их произнес.
WordVoice
Преимущества:
• Позволяет редактировать преобразованный текст в ЛК сервиса;
• Проставляет тайм-коды в ЛК;
• Не допускает ошибок в пунктуации.
Недостатки:
• Не разделяет текст на спикеров;
• Выгружает файлы только в формате txt;
• Иногда не распознаёт отдельные слова, названия, аббревиатуры, английские слова.
• Дробит каждую фразу на отдельные абзацы.
• Вставляет фразы, которых не было в речи;
• Не выгружает текст в необходимом форматировании.
Писец
Преимущества:
• Сохраняет текст в формате docs;
• Поддерживает множество форматов файлов.
Недостатки:
• Не выгружает текст с необходимым предварительным форматированием: нельзя убрать тайм-коды и обозначения спикеров при выгрузке, кроме того, нельзя поменять названия спикеров (выгружается с Винни-Пухом и Пятачком);
• Не всегда корректно распознаёт спикеров, может слова одного относить к другому;
• Делит монолог одного спикера на отдельные реплики или абзацы;
• Иногда плохо распознает некоторые слова: дробит на части, пропускает буквы;
• Часто допускает ошибки в пунктуации;
• Не позволяет редактировать текст в ЛК;
• Не проставляет тайм-коды;
• Отсутствует интерактивный плеер.
В заключение хочется отметить, что каждая платформа имеет свои преимущества и недостатки, и конкретный пользователь имеет возможность подобрать решение, максимально отвечающее его потребностям. Надеемся, наш обзор будет вам полезен.

Компанией ResearchView был проведен анализ российского рынка туризма на основе открытых данных, доступных на апрель 2025 г., с целью оценки его текущего состояния и имеющихся перспектив развития.

Компанией ResearchView был проведен анализ рынка видеоигр на основе открытых данных, доступных на март 2025 г., с целью оценки его текущего состояния и имеющихся перспектив развития.

Компанией ResearchView был проведен анализ открытых данных по рынку криптовалют, доступных на январь 2025 г., с целью оценки его текущего состояния и имеющихся перспектив развития.