Транскрибация аудио в текст онлайн
Загрузите запись – нейросеть Palatine Speech переведёт её в текст с таймкодами и делением на спикеров. Точность 92,9%, 23+ форматов, файлы от 10 часов, от 0,29 ₽ за минуту.
- Точность 92,9% (WER 7,10%)
- Таймкоды по словам
- До 5 спикеров
- Файлы 10+ часов
- 152-ФЗ · данные в РФ
Транскрибация аудио в текст преобразует речь из аудиофайла в готовую стенограмму с пунктуацией, абзацами и таймкодами. Сервис Palatine Speech распознаёт аудио с точностью 92,9% (WER 7,10%) и автоматически делит запись на спикеров. Это онлайн-инструмент для интервью, созвонов, подкастов и диктофонных записей: он не озвучивает текст, не распознаёт картинки и не ищет музыку. Чтобы перевести аудио в текст онлайн, загрузите файл или вставьте ссылку – нейросеть для транскрибации вернёт расшифровку аудиозаписи, готовую к скачиванию.
Как перевести аудио в текст: 3 шага
Расшифровка аудио занимает три действия и не требует ручной разметки.
- Загрузите файл или вставьте ссылку. Перетащите запись в окно или укажите URL – сервис принимает 23+ форматов, включая аудиодорожки видео.
- Дождитесь обработки. Нейросеть распознаёт речь со знаками препинания и абзацами; обработка файла занимает 1–2% длительности – около 25 секунд на 30-минутный файл.
- Скачайте стенограмму. Заберите текст в TXT, DOCX, SRT или VTT, а по API – в CSV, XLSX или JSON.
Загрузить файл или вставить ссылку (23+ форматов)
Источником ввода служит загрузка файла через drag&drop или вставка ссылки. Сервис принимает MP3, WAV, M4A, OGG, AAC, FLAC и аудиодорожки видео – этого хватает, чтобы преобразовать аудио в текст с любого диктофона, мессенджера или записи звонка. Один файл может длиться 10+ часов и обрабатывается целиком, без деления на части.
Что вернёт нейросеть (текст с пунктуацией, абзацами, спикерами)
На выходе вы получаете не сырой поток слов, а структурированный текст: знаки препинания и абзацы расставлены автоматически, реплики разнесены по говорящим, а у каждого слова есть таймкод. Такую расшифровку аудио в текст с таймкодами и спикерами удобно вычитывать, цитировать и собирать в субтитры.
Нейросеть для транскрибации аудио: точность и бенчмарк
ИИ-транскрибация аудио опирается на собственную модель Palatine, обученную на 700 000 часов аудио. Это объясняет, почему автоматическая транскрибация аудиозаписей здесь точнее многих открытых решений.
Точность транскрибации: WAcc 92,9% и WER 7,10% по семи датасетам
Palatine распознаёт аудио с точностью WAcc 92,9% при WER 7,10% – замер проведён на семи открытых датасетах. По этому показателю модель опережает Whisper-large-v3 (WER 7,44) и distil-large-v3 (7,52). Мы даём честную метрику: это лучшая точность среди доступных в РФ сервисов по цене ниже 0,3 ₽/мин, а не абстрактные «95–99%».
Точность на шуме и телефонии
Для зашумлённых каналов и телефонии 8 кГц работает отдельная модель – точность держится около 90%. Поэтому транскрибация аудио со знаками препинания остаётся читаемой даже на записях колл-центра или диктофона в людном месте.
Кастомный словарь и числа
Кастомный словарь терминов подтягивает отраслевые названия, имена и аббревиатуры, а числа, даты и суммы распознаются точно. Назовите спикеров и термины в начале записи – и расшифровка аудиозаписи будет ещё аккуратнее.
Деление на спикеров и таймкоды по словам
Диаризация (деление на спикеров) и таймкоды превращают сплошную запись в читаемый диалог с навигацией.
Диаризация до 5 дикторов
Диаризация размечает реплики до 5 спикеров по тайм-кодам. Реплики подписываются «Спикер 1», «Спикер 2» и переименовываются вручную, поэтому интервью или рабочий созвон читаются как диалог, а не как поток.
Word-level таймкоды для цитат и субтитров
Таймкоды проставляются для каждого слова. По тексту с таймкодами вы быстро находите нужную цитату, монтируете фрагмент и собираете субтитры SRT/VTT из тех же отметок времени.
Какие форматы аудио можно перевести в текст
Матрица форматов закрывает и вход, и выход: любой источник звука превращается в стенограмму нужного вида.
Вход (MP3, WAV, M4A, OGG, AAC, FLAC…)
Сервис принимает 23+ форматов: MP3, WAV, M4A, OGG, AAC, FLAC и аудиодорожки видео. Перевести AAC в текст или расшифровать редкий контейнер можно так же, как и привычный MP3.
Выход (TXT, DOCX, SRT, VTT, CSV, XLSX, JSON)
Результат экспортируется в TXT, DOCX, SRT и VTT, а по API – в CSV, XLSX и JSON. Для статьи берите DOCX, для субтитров – SRT/VTT, для аналитики – CSV или XLSX.
Сколько стоит транскрибация аудио
Цена прозрачна и без подписки: вы платите только за обработанные минуты.
От 0,29 ₽/мин и бесплатные минуты по запросу
Транскрибация аудио стоит от 0,29 ₽ за минуту – это 17,4 ₽ за час и самая низкая ставка среди доступных в РФ сервисов. Новым пользователям 1000 минут бесплатно выделяем по запросу – чтобы проверить точность на своих файлах.
Pay-as-you-go, баланс не сгорает
Биллинг работает по модели pay-as-you-go: баланс не сгорает, секунды округляются вниз, а оплата проходит картами МИР и через СБП без VPN. Полный разбор цены и правил – на странице /tarify/.
Кому пригодится перевод аудио в текст
Расшифровка аудио экономит время везде, где речь нужно перечитать или процитировать.
Интервью, подкасты, лекции
Журналист загружает аудио интервью на час и за ~1 минуту получает расшифровку со спикерами и таймкодами, затем скачивает DOCX. Подкастер загружает выпуск на 2 часа, получает стенограмму и собирает шоуноты и субтитры SRT/VTT из таймкодов; лекцию так же удобно превратить в конспект.
Созвоны, диктофон, исследования
Продакт загружает запись созвона на 30 минут и читает текст с разметкой по говорящим вместо повторного прослушивания. Исследователи расшифровывают диктофонные интервью, а из готовой стенограммы собирают саммари. Для длинных видеозвонков есть отдельная страница видео в текст.
Безопасность данных и 152-ФЗ
Записи остаются в российском контуре и не используются для обучения.
4 ЦОД Tier III в РФ
Данные обрабатываются в 4 ЦОД уровня Tier III на территории РФ с отказоустойчивостью 99,982% – это соответствует 152-ФЗ. Передача идёт по TLS, оплата проходит без VPN и зарубежных сервисов.
Не обучаем модели на ваших файлах
Мы не обучаем модели на ваших записях, не храним и не анализируем их после выдачи, а для бизнеса заключаем договор и NDA. В отличие от части сервисов в выдаче, мы публикуем реальные лимиты файла и честную метрику точности, а не маркетинговые «95–99%» без методики.
API транскрибации для разработчиков
Транскрибацию легко встроить в продукт без переписывания интеграции. API совместим с SDK OpenAI: достаточно заменить базовый адрес (base_url) на адрес Palatine и вызвать метод POST /audio/transcriptions. Ответ приходит в JSON с полями text, speakers и пословными words – те же таймкоды и деление на спикеров, что и в веб-интерфейсе. Поддержаны асинхронный polling статуса задачи, потоковая транскрибация по WebSocket и выгрузка в SRT, VTT, CSV и XLSX. Подробности – на странице speech-to-text API и в документации docs.speech.palatine.ru.
Короткие голосовые сообщения и войсы из мессенджеров быстрее расшифровать в боте, а для диктовки текста голосом в реальном времени используйте диктовку голосом.
Для бизнеса важна не только точность расшифровки, но и то, что записи переговоров остаются в России. Мы обучили модель на 700 000 часов русской речи и держим данные в ЦОД на территории РФ — поэтому транскрибация получается точной, быстрой и без риска утечки за рубеж.
Ответы на вопросы
Не нашли ответ на свой вопрос? Напишите нам
Какая точность у транскрибации аудио в текст?
Средний WER 7,10% (точность по словам 92,9%) — замер на семи открытых датасетах; в бенчмарке мы выше Whisper-large-v3 (7,44) и distil-large-v3 (7,52). На чистой записи точность выше, на телефонии и шуме — около 90% за счёт отдельной модели; кастомный словарь подтягивает термины, имена и аббревиатуры, числа распознаются точно.
Сколько стоит перевести аудио в текст?
От 0,29 ₽/мин — это 17,4 ₽ за час; диаризация (спикеры) — от 0,30 ₽/мин; новым пользователям — 1000 бесплатных минут по запросу; pay-as-you-go без подписки, баланс не сгорает, секунды округляются вниз. Полные тарифы и правила биллинга — на /tarify/.
Какие форматы аудио можно расшифровать?
23+ форматов: MP3, WAV, M4A, OGG, AAC, FLAC и другие, включая аудиодорожки видео. Результат скачивается в TXT, DOCX, SRT, VTT, а по API — CSV, XLSX, JSON.
Как быстро обрабатывается запись?
1–2% от длительности файла: 30 минут ≈ 25 секунд, час аудио ≈ минута. Для сравнения, у большинства сервисов в рунете час занимает 5–7 минут.
Сервис различает нескольких говорящих?
Да, диаризация делит текст до 5 спикеров с таймкодами реплик, работает на многоканальном аудио и в шуме. Реплики подписываются «Спикер ½…», их можно переименовать.
Это безопасно? Куда попадают мои записи?
Обработка в 4 ЦОД уровня Tier III на территории РФ (отказоустойчивость 99,982%), передача по TLS, соответствие 152-ФЗ. Мы не обучаем модели на ваших файлах, не храним и не анализируем их; для бизнеса — договор и NDA.
Можно ли расшифровать подкаст или лекцию длиной несколько часов?
Да, сервис принимает файлы от 10+ часов без деления на части; таймкоды и саммари помогают навигировать по длинной записи и собирать шоуноты.
А короткие голосовые и войсы из мессенджеров?
Их удобнее расшифровать в Telegram-боте @VoicePalatineBot: перешлите голосовое — получите текст со спикерами за секунды, 100 расшифровок в день бесплатно.
Можно ли встроить транскрибацию в своё приложение?
Да, API совместим с SDK OpenAI — достаточно заменить base_url; есть асинхронный polling с выгрузкой SRT/VTT/CSV/XLSX и потоковая транскрибация по WebSocket. 1000 бесплатных минут по запросу хватит на интеграцию и тест.