Telegram-бот для расшифровки голосовых и аудио в текст

Перешлите голосовое сообщение, аудио или видео-кружок боту @VoicePalatineBot – получите готовый текст с делением на спикеров. Точность 92,9%, поддержка ~100 языков, 100 расшифровок в день бесплатно.

  • Точность 92,9%
  • Голосовые и кружки
  • Деление на спикеров
  • ~100 языков
  • Данные в РФ (152-ФЗ)
  • Без VPN и карты
Живое демо: нажмите, говорите — получите текст как в боте
Нажмите поле, разрешите микрофон и говорите по-русски — текст появится здесь в реальном времени
живое демо · потоковая транскрибация в реальном времени

Как расшифровать голосовое сообщение ботом

Telegram-бот @VoicePalatineBot переводит голосовые сообщения в текст прямо в мессенджере. Как бот аудио в текст, он превращает голосовое или аудио в читаемую расшифровку. Музыку он не качает и на другой язык не переводит. Чтобы перевести голосовое в текст, вам не понадобятся приложения, регистрация или карта.

Расшифровка голосовых занимает три шага.

  1. Откройте бота – перейдите в @VoicePalatineBot и нажмите «Старт».
  2. Перешлите запись – переслать голосовое боту можно как пересылкой, так и файлом.
  3. Получите текст – бот вернёт текст из голосового с тайм-кодами за секунды.

Переслать войс боту

Чаще всего голосовое пересылают боту из любого чата. Вы отправляете войс на 2 минуты и через несколько секунд получаете текст со спикерами. Транскрибация в Telegram идёт без копирования ссылок и выгрузки файлов: расшифровка войсов остаётся внутри мессенджера, а голос в текст превращается в один тап.

Поддерживаемые источники: войсы, кружки, файлы

Бот принимает голосовые, видео-кружки и аудиофайлы в форматах MP3, OGG, M4A и WAV. Видео-кружок и пересланное видео он тоже расшифровывает, так что текст из видео можно получить без отдельного сервиса. Бот голосовых сообщений телеграмм работает с любым из этих источников.

Что умеет бот: спикеры, языки, точность

Бот распознаёт русскую речь с точностью WAcc 92,9% (WER 7,10%) и сам делит запись на участников. За расшифровкой стоит ASR-движок Palatine Speech, поэтому голос в текст телеграм переводит на профессиональном уровне.

Деление на спикеров (диаризация)

Диаризация размечает реплики по спикерам и тайм-кодам. Бот понимает, кто и когда говорит, и проставляет тайм-коды и спикеры в готовом тексте. Журналист пересылает аудио интервью и получает расшифровку с разметкой по говорящим, где каждая реплика подписана. Деление на спикеров выручает на интервью, совещаниях и в рабочих переписках, где участвует несколько человек.

~100 языков и автоопределение

Palatine Speech поддерживает около 100 языков с автоопределением. Язык вручную указывать не нужно: бот сам распознаёт русский, языки СНГ и десятки других. Когда в записи звучит русский с вкраплениями другого языка, основной язык он тоже определяет сам.

100 бесплатных расшифровок в день

@VoicePalatineBot даёт 100 бесплатных транскрибаций в день. Эти 100 бесплатно в день честные: лимит обновляется каждые сутки, карта и подписка не нужны, а баланс не сгорает. Многие боты-конкуренты в выдаче ограничивают бесплатный доступ подпиской или малым лимитом. Здесь сто расшифровок доступны сразу, без VPN и карты.

Что входит бесплатно

В бесплатный лимит входят все форматы, деление на спикеров и тайм-коды, причём функции здесь не урезаны. Сотрудник пересылает войс из рабочего чата и читает текст вместо прослушивания, не тратя ни рубля. Ста расшифровок в день хватает, чтобы перестать слушать длинные голосовые.

Объёмы сверх лимита (веб и API)

Когда записей больше ста в день, те же модели доступны через веб-сервис и API. Расшифровка сверх дневного лимита стоит от 0,29 ₽ за минуту: вы платите по факту, и баланс не сгорает. Большие объёмы удобнее обрабатывать через транскрибацию аудио в текст или speech-to-text API, а 1000 минут бесплатно стартапам выделяем по запросу.

ПланЛимитЧто входитЦена
Бот Free100 расшифровок в деньВсе форматы, спикеры, тайм-коды0 ₽
Веб / APIбез лимитаПакетная обработка, баланс не сгораетот 0,29 ₽/мин
Стартапам1000 минутВыделяем по запросубесплатно

Кому подходит бот

Бот экономит время на прослушивании голосовых всем, кто живёт в Telegram. Он одинаково выручает в рабочих чатах, в журналистике и в дороге, ведь любую запись превращает в текст за секунды.

Войсы рабочих чатов

Команды переводят голосовые из рабочих переписок в текст и читают их вместо прослушивания. Пригодится, когда коллега прислал длинный войс, а вам нужно быстро найти суть и переслать решение дальше.

Интервью и заметки на ходу

Журналисты и блогеры расшифровывают интервью и заметки на ходу прямо из Telegram. Бот для интервью размечает говорящих, поэтому готовый текст сразу можно цитировать. В дороге достаточно надиктовать мысль голосом, и бот вернёт текст для заметок и задач.

Безопасность: данные в России

Обработка записей соответствует требованиям 152-ФЗ. Записи проходят через инфраструктуру в РФ, а не через зарубежные серверы, поэтому данные в РФ остаются под российским законодательством.

152-ФЗ и ЦОД

Серверы Palatine Speech размещены в четырёх ЦОД уровня Tier III в России. Обработка соответствует требованиям 152-ФЗ, передача идёт по TLS, оплата проходит картами МИР и через СБП – без VPN и зарубежных сервисов.

Не обучаем на ваших данных

Мы не обучаем модели на ваших записях и не передаём их третьим лицам. Голосовое расшифровывается и возвращается вам – запись не используется для дообучения ASR.

Точность и советы для лучшего результата

На чистом аудио бот распознаёт речь с точностью WAcc 92,9% (WER 7,10%). Метрики получены на бенчмарке из семи датасетов, где Palatine Speech показал WER 7,10% – на уровне ведущих зарубежных систем.

WER и WAcc

WAcc – доля правильно распознанных слов, WER – доля ошибок; 92,9% точности означает 7,10% ошибок. На шумных и телефонных записях отдельная модель повышает точность примерно до 90%, поэтому войс из машины или с улицы распознаётся корректно.

Как записать, чтобы распознало точнее

  1. Записывайте голосовое ближе к источнику звука и без фонового шума.
  2. Назовите имена и редкие термины в начале записи.
  3. Длинную запись перешлите одним файлом целиком, а не нарезкой коротких фрагментов.

Для диктовки в реальном времени подойдёт диктовка голосом. Если нужен обзор всех инструментов платформы, начните с главной.

Комментарий CEO
Голосовые и кружки расшифровываются прямо в Telegram — пользователю не нужно выгружать файлы во внешние сервисы. Записи остаются в нашем контуре на территории РФ, а 100 расшифровок в день мы отдаём бесплатно: без карты, подписки и VPN.
Валерий ГречинCEO Palatine Speech

Возможности бота

Голосовые и кружки

Расшифровывает войсы Telegram, видео-кружки и пересланные аудио.

Деление на спикеров

Диаризация размечает, кто и когда говорит, по тайм-кодам.

~100 языков

Русский, языки СНГ и другие; язык определяется автоматически.

Точность на русском

WAcc 92,9% (WER 7,10%), отдельная модель под шумные записи.

Без VPN и карты

Оплата картами МИР и через СБП, бот работает без VPN.

Данные в России

Обработка по 152-ФЗ в ЦОД РФ, не обучаем модели на ваших записях.

Ответы на вопросы

Не нашли ответ на свой вопрос? Напишите нам

Как расшифровать голосовое сообщение в Telegram?

Откройте бота @VoicePalatineBot и перешлите ему голосовое сообщение — он вернёт текст с тайм-кодами и делением на спикеров за несколько секунд.

Сколько это стоит?

В боте 100 расшифровок в день бесплатно, без карты и подписки. Для больших объёмов — от 0,29 ₽ за минуту через веб-сервис и API.

Какие форматы понимает бот?

Голосовые Telegram, видео-кружки, аудиофайлы (MP3, OGG, M4A, WAV) и видео. Можно переслать запись или прикрепить файл.

Бот определяет, кто говорит?

Да, диаризация включена: каждая реплика помечается спикером и тайм-кодом — удобно для интервью и совещаний.

Какая точность распознавания?

На чистом аудио WAcc 92,9% (WER 7,10%), на телефонном и шумном канале — около 90% за счёт отдельной модели.

Какие языки поддерживаются?

Около 100 языков, включая русский и языки СНГ; язык определяется автоматически.

Безопасно ли пересылать записи боту?

Данные обрабатываются в РФ по 152-ФЗ в четырёх ЦОД Tier III, передаются по TLS, на них не обучаются модели и не передаются третьим лицам.

Что делать, если нужно больше 100 расшифровок в день?

Подключите веб-сервис Palatine Speech или speech-to-text API — те же модели, оплата по минутам от 0,29 ₽, баланс не сгорает.

Нужны ли регистрация и VPN?

Для бота аккаунт не нужен — просто откройте его в Telegram. VPN тоже не требуется: оплата и обработка идут внутри РФ.