Telegram-бот для расшифровки голосовых и аудио в текст
Перешлите голосовое сообщение, аудио или видео-кружок боту @VoicePalatineBot – получите готовый текст с делением на спикеров. Точность 92,9%, поддержка ~100 языков, 100 расшифровок в день бесплатно.
- Точность 92,9%
- Голосовые и кружки
- Деление на спикеров
- ~100 языков
- Данные в РФ (152-ФЗ)
- Без VPN и карты
Как расшифровать голосовое сообщение ботом
Telegram-бот @VoicePalatineBot переводит голосовые сообщения в текст прямо в мессенджере. Как бот аудио в текст, он превращает голосовое или аудио в читаемую расшифровку. Музыку он не качает и на другой язык не переводит. Чтобы перевести голосовое в текст, вам не понадобятся приложения, регистрация или карта.
Расшифровка голосовых занимает три шага.
- Откройте бота – перейдите в @VoicePalatineBot и нажмите «Старт».
- Перешлите запись – переслать голосовое боту можно как пересылкой, так и файлом.
- Получите текст – бот вернёт текст из голосового с тайм-кодами за секунды.
Переслать войс боту
Чаще всего голосовое пересылают боту из любого чата. Вы отправляете войс на 2 минуты и через несколько секунд получаете текст со спикерами. Транскрибация в Telegram идёт без копирования ссылок и выгрузки файлов: расшифровка войсов остаётся внутри мессенджера, а голос в текст превращается в один тап.
Поддерживаемые источники: войсы, кружки, файлы
Бот принимает голосовые, видео-кружки и аудиофайлы в форматах MP3, OGG, M4A и WAV. Видео-кружок и пересланное видео он тоже расшифровывает, так что текст из видео можно получить без отдельного сервиса. Бот голосовых сообщений телеграмм работает с любым из этих источников.
Что умеет бот: спикеры, языки, точность
Бот распознаёт русскую речь с точностью WAcc 92,9% (WER 7,10%) и сам делит запись на участников. За расшифровкой стоит ASR-движок Palatine Speech, поэтому голос в текст телеграм переводит на профессиональном уровне.
Деление на спикеров (диаризация)
Диаризация размечает реплики по спикерам и тайм-кодам. Бот понимает, кто и когда говорит, и проставляет тайм-коды и спикеры в готовом тексте. Журналист пересылает аудио интервью и получает расшифровку с разметкой по говорящим, где каждая реплика подписана. Деление на спикеров выручает на интервью, совещаниях и в рабочих переписках, где участвует несколько человек.
~100 языков и автоопределение
Palatine Speech поддерживает около 100 языков с автоопределением. Язык вручную указывать не нужно: бот сам распознаёт русский, языки СНГ и десятки других. Когда в записи звучит русский с вкраплениями другого языка, основной язык он тоже определяет сам.
100 бесплатных расшифровок в день
@VoicePalatineBot даёт 100 бесплатных транскрибаций в день. Эти 100 бесплатно в день честные: лимит обновляется каждые сутки, карта и подписка не нужны, а баланс не сгорает. Многие боты-конкуренты в выдаче ограничивают бесплатный доступ подпиской или малым лимитом. Здесь сто расшифровок доступны сразу, без VPN и карты.
Что входит бесплатно
В бесплатный лимит входят все форматы, деление на спикеров и тайм-коды, причём функции здесь не урезаны. Сотрудник пересылает войс из рабочего чата и читает текст вместо прослушивания, не тратя ни рубля. Ста расшифровок в день хватает, чтобы перестать слушать длинные голосовые.
Объёмы сверх лимита (веб и API)
Когда записей больше ста в день, те же модели доступны через веб-сервис и API. Расшифровка сверх дневного лимита стоит от 0,29 ₽ за минуту: вы платите по факту, и баланс не сгорает. Большие объёмы удобнее обрабатывать через транскрибацию аудио в текст или speech-to-text API, а 1000 минут бесплатно стартапам выделяем по запросу.
| План | Лимит | Что входит | Цена |
|---|---|---|---|
| Бот Free | 100 расшифровок в день | Все форматы, спикеры, тайм-коды | 0 ₽ |
| Веб / API | без лимита | Пакетная обработка, баланс не сгорает | от 0,29 ₽/мин |
| Стартапам | 1000 минут | Выделяем по запросу | бесплатно |
Кому подходит бот
Бот экономит время на прослушивании голосовых всем, кто живёт в Telegram. Он одинаково выручает в рабочих чатах, в журналистике и в дороге, ведь любую запись превращает в текст за секунды.
Войсы рабочих чатов
Команды переводят голосовые из рабочих переписок в текст и читают их вместо прослушивания. Пригодится, когда коллега прислал длинный войс, а вам нужно быстро найти суть и переслать решение дальше.
Интервью и заметки на ходу
Журналисты и блогеры расшифровывают интервью и заметки на ходу прямо из Telegram. Бот для интервью размечает говорящих, поэтому готовый текст сразу можно цитировать. В дороге достаточно надиктовать мысль голосом, и бот вернёт текст для заметок и задач.
Безопасность: данные в России
Обработка записей соответствует требованиям 152-ФЗ. Записи проходят через инфраструктуру в РФ, а не через зарубежные серверы, поэтому данные в РФ остаются под российским законодательством.
152-ФЗ и ЦОД
Серверы Palatine Speech размещены в четырёх ЦОД уровня Tier III в России. Обработка соответствует требованиям 152-ФЗ, передача идёт по TLS, оплата проходит картами МИР и через СБП – без VPN и зарубежных сервисов.
Не обучаем на ваших данных
Мы не обучаем модели на ваших записях и не передаём их третьим лицам. Голосовое расшифровывается и возвращается вам – запись не используется для дообучения ASR.
Точность и советы для лучшего результата
На чистом аудио бот распознаёт речь с точностью WAcc 92,9% (WER 7,10%). Метрики получены на бенчмарке из семи датасетов, где Palatine Speech показал WER 7,10% – на уровне ведущих зарубежных систем.
WER и WAcc
WAcc – доля правильно распознанных слов, WER – доля ошибок; 92,9% точности означает 7,10% ошибок. На шумных и телефонных записях отдельная модель повышает точность примерно до 90%, поэтому войс из машины или с улицы распознаётся корректно.
Как записать, чтобы распознало точнее
- Записывайте голосовое ближе к источнику звука и без фонового шума.
- Назовите имена и редкие термины в начале записи.
- Длинную запись перешлите одним файлом целиком, а не нарезкой коротких фрагментов.
Для диктовки в реальном времени подойдёт диктовка голосом. Если нужен обзор всех инструментов платформы, начните с главной.
Голосовые и кружки расшифровываются прямо в Telegram — пользователю не нужно выгружать файлы во внешние сервисы. Записи остаются в нашем контуре на территории РФ, а 100 расшифровок в день мы отдаём бесплатно: без карты, подписки и VPN.
Ответы на вопросы
Не нашли ответ на свой вопрос? Напишите нам
Как расшифровать голосовое сообщение в Telegram?
Откройте бота @VoicePalatineBot и перешлите ему голосовое сообщение — он вернёт текст с тайм-кодами и делением на спикеров за несколько секунд.
Сколько это стоит?
В боте 100 расшифровок в день бесплатно, без карты и подписки. Для больших объёмов — от 0,29 ₽ за минуту через веб-сервис и API.
Какие форматы понимает бот?
Голосовые Telegram, видео-кружки, аудиофайлы (MP3, OGG, M4A, WAV) и видео. Можно переслать запись или прикрепить файл.
Бот определяет, кто говорит?
Да, диаризация включена: каждая реплика помечается спикером и тайм-кодом — удобно для интервью и совещаний.
Какая точность распознавания?
На чистом аудио WAcc 92,9% (WER 7,10%), на телефонном и шумном канале — около 90% за счёт отдельной модели.
Какие языки поддерживаются?
Около 100 языков, включая русский и языки СНГ; язык определяется автоматически.
Безопасно ли пересылать записи боту?
Данные обрабатываются в РФ по 152-ФЗ в четырёх ЦОД Tier III, передаются по TLS, на них не обучаются модели и не передаются третьим лицам.
Что делать, если нужно больше 100 расшифровок в день?
Подключите веб-сервис Palatine Speech или speech-to-text API — те же модели, оплата по минутам от 0,29 ₽, баланс не сгорает.
Нужны ли регистрация и VPN?
Для бота аккаунт не нужен — просто откройте его в Telegram. VPN тоже не требуется: оплата и обработка идут внутри РФ.