Перетащите аудио (MP3, WAV, M4A, OGG) — или нажмите, чтобы выбратьMP3 · WAV · M4A · OGG · MP4 · до 30 минут
Пример результата – так выглядит готовая расшифровка
00:58РусскийСпикеры: 2
00:00Спикер 1

Расскажите, с чего начался проект и кто были ваши первые пользователи?

00:07Спикер 2

Начинали с небольшой команды и одного кейса — расшифровки подкастов. Первые пользователи пришли из профессионального сообщества монтажёров.

00:17Спикер 1

А что оказалось самым сложным на старте?

00:24Спикер 2

Удержание. Люди приходили попробовать, но возвращались не все. Мы переработали онбординг и подняли удержание второй недели почти вдвое.

00:35Спикер 1

Какую метрику вы считаете главной сегодня?

00:41Спикер 2

Долю минут, которые пользователь обрабатывает повторно. Если возвращается с новыми файлами — значит, продукт стал частью рабочего процесса.

AI-саммари

Журналист расспрашивает основателя о запуске продукта; собеседник рассказывает про первых пользователей и метрику удержания.

Транскрибация аудио в текст онлайн

Загрузите запись – нейросеть Palatine Speech переведёт её в текст с таймкодами и делением на спикеров. Точность 92,9%, 23+ форматов, файлы от 10 часов, от 0,29 ₽ за минуту.

  • Точность 92,9% (WER 7,10%)
  • Таймкоды по словам
  • До 5 спикеров
  • Файлы 10+ часов
  • 152-ФЗ · данные в РФ
Живое демо: нажмите, говорите — текст появится сразу
Нажмите поле, разрешите микрофон и говорите по-русски — текст появится здесь в реальном времени
живое демо · потоковая транскрибация в реальном времени

Транскрибация аудио в текст преобразует речь из аудиофайла в готовую стенограмму с пунктуацией, абзацами и таймкодами. Сервис Palatine Speech распознаёт аудио с точностью 92,9% (WER 7,10%) и автоматически делит запись на спикеров. Это онлайн-инструмент для интервью, созвонов, подкастов и диктофонных записей: он не озвучивает текст, не распознаёт картинки и не ищет музыку. Чтобы перевести аудио в текст онлайн, загрузите файл или вставьте ссылку – нейросеть для транскрибации вернёт расшифровку аудиозаписи, готовую к скачиванию.

Как перевести аудио в текст: 3 шага

Расшифровка аудио занимает три действия и не требует ручной разметки.

  1. Загрузите файл или вставьте ссылку. Перетащите запись в окно или укажите URL – сервис принимает 23+ форматов, включая аудиодорожки видео.
  2. Дождитесь обработки. Нейросеть распознаёт речь со знаками препинания и абзацами; обработка файла занимает 1–2% длительности – около 25 секунд на 30-минутный файл.
  3. Скачайте стенограмму. Заберите текст в TXT, DOCX, SRT или VTT, а по API – в CSV, XLSX или JSON.

Загрузить файл или вставить ссылку (23+ форматов)

Источником ввода служит загрузка файла через drag&drop или вставка ссылки. Сервис принимает MP3, WAV, M4A, OGG, AAC, FLAC и аудиодорожки видео – этого хватает, чтобы преобразовать аудио в текст с любого диктофона, мессенджера или записи звонка. Один файл может длиться 10+ часов и обрабатывается целиком, без деления на части.

Что вернёт нейросеть (текст с пунктуацией, абзацами, спикерами)

На выходе вы получаете не сырой поток слов, а структурированный текст: знаки препинания и абзацы расставлены автоматически, реплики разнесены по говорящим, а у каждого слова есть таймкод. Такую расшифровку аудио в текст с таймкодами и спикерами удобно вычитывать, цитировать и собирать в субтитры.

Нейросеть для транскрибации аудио: точность и бенчмарк

ИИ-транскрибация аудио опирается на собственную модель Palatine, обученную на 700 000 часов аудио. Это объясняет, почему автоматическая транскрибация аудиозаписей здесь точнее многих открытых решений.

Точность транскрибации: WAcc 92,9% и WER 7,10% по семи датасетам

Palatine распознаёт аудио с точностью WAcc 92,9% при WER 7,10% – замер проведён на семи открытых датасетах. По этому показателю модель опережает Whisper-large-v3 (WER 7,44) и distil-large-v3 (7,52). Мы даём честную метрику: это лучшая точность среди доступных в РФ сервисов по цене ниже 0,3 ₽/мин, а не абстрактные «95–99%».

Точность на шуме и телефонии

Для зашумлённых каналов и телефонии 8 кГц работает отдельная модель – точность держится около 90%. Поэтому транскрибация аудио со знаками препинания остаётся читаемой даже на записях колл-центра или диктофона в людном месте.

Кастомный словарь и числа

Кастомный словарь терминов подтягивает отраслевые названия, имена и аббревиатуры, а числа, даты и суммы распознаются точно. Назовите спикеров и термины в начале записи – и расшифровка аудиозаписи будет ещё аккуратнее.

Деление на спикеров и таймкоды по словам

Диаризация (деление на спикеров) и таймкоды превращают сплошную запись в читаемый диалог с навигацией.

Диаризация до 5 дикторов

Диаризация размечает реплики до 5 спикеров по тайм-кодам. Реплики подписываются «Спикер 1», «Спикер 2» и переименовываются вручную, поэтому интервью или рабочий созвон читаются как диалог, а не как поток.

Word-level таймкоды для цитат и субтитров

Таймкоды проставляются для каждого слова. По тексту с таймкодами вы быстро находите нужную цитату, монтируете фрагмент и собираете субтитры SRT/VTT из тех же отметок времени.

Какие форматы аудио можно перевести в текст

Матрица форматов закрывает и вход, и выход: любой источник звука превращается в стенограмму нужного вида.

Вход (MP3, WAV, M4A, OGG, AAC, FLAC…)

Сервис принимает 23+ форматов: MP3, WAV, M4A, OGG, AAC, FLAC и аудиодорожки видео. Перевести AAC в текст или расшифровать редкий контейнер можно так же, как и привычный MP3.

Выход (TXT, DOCX, SRT, VTT, CSV, XLSX, JSON)

Результат экспортируется в TXT, DOCX, SRT и VTT, а по API – в CSV, XLSX и JSON. Для статьи берите DOCX, для субтитров – SRT/VTT, для аналитики – CSV или XLSX.

Сколько стоит транскрибация аудио

Цена прозрачна и без подписки: вы платите только за обработанные минуты.

От 0,29 ₽/мин и бесплатные минуты по запросу

Транскрибация аудио стоит от 0,29 ₽ за минуту – это 17,4 ₽ за час и самая низкая ставка среди доступных в РФ сервисов. Новым пользователям 1000 минут бесплатно выделяем по запросу – чтобы проверить точность на своих файлах.

Pay-as-you-go, баланс не сгорает

Биллинг работает по модели pay-as-you-go: баланс не сгорает, секунды округляются вниз, а оплата проходит картами МИР и через СБП без VPN. Полный разбор цены и правил – на странице /tarify/.

Кому пригодится перевод аудио в текст

Расшифровка аудио экономит время везде, где речь нужно перечитать или процитировать.

Интервью, подкасты, лекции

Журналист загружает аудио интервью на час и за ~1 минуту получает расшифровку со спикерами и таймкодами, затем скачивает DOCX. Подкастер загружает выпуск на 2 часа, получает стенограмму и собирает шоуноты и субтитры SRT/VTT из таймкодов; лекцию так же удобно превратить в конспект.

Созвоны, диктофон, исследования

Продакт загружает запись созвона на 30 минут и читает текст с разметкой по говорящим вместо повторного прослушивания. Исследователи расшифровывают диктофонные интервью, а из готовой стенограммы собирают саммари. Для длинных видеозвонков есть отдельная страница видео в текст.

Безопасность данных и 152-ФЗ

Записи остаются в российском контуре и не используются для обучения.

4 ЦОД Tier III в РФ

Данные обрабатываются в 4 ЦОД уровня Tier III на территории РФ с отказоустойчивостью 99,982% – это соответствует 152-ФЗ. Передача идёт по TLS, оплата проходит без VPN и зарубежных сервисов.

Не обучаем модели на ваших файлах

Мы не обучаем модели на ваших записях, не храним и не анализируем их после выдачи, а для бизнеса заключаем договор и NDA. В отличие от части сервисов в выдаче, мы публикуем реальные лимиты файла и честную метрику точности, а не маркетинговые «95–99%» без методики.

API транскрибации для разработчиков

Транскрибацию легко встроить в продукт без переписывания интеграции. API совместим с SDK OpenAI: достаточно заменить базовый адрес (base_url) на адрес Palatine и вызвать метод POST /audio/transcriptions. Ответ приходит в JSON с полями text, speakers и пословными words – те же таймкоды и деление на спикеров, что и в веб-интерфейсе. Поддержаны асинхронный polling статуса задачи, потоковая транскрибация по WebSocket и выгрузка в SRT, VTT, CSV и XLSX. Подробности – на странице speech-to-text API и в документации docs.speech.palatine.ru.

Короткие голосовые сообщения и войсы из мессенджеров быстрее расшифровать в боте, а для диктовки текста голосом в реальном времени используйте диктовку голосом.

Комментарий CEO
Для бизнеса важна не только точность расшифровки, но и то, что записи переговоров остаются в России. Мы обучили модель на 700 000 часов русской речи и держим данные в ЦОД на территории РФ — поэтому транскрибация получается точной, быстрой и без риска утечки за рубеж.
Валерий ГречинCEO Palatine Speech

Palatine Speech против ручной расшифровки и зарубежных сервисов

Palatine SpeechРучная расшифровкаЗарубежные сервисы
Цена за час17,4 ₽600–1200 ₽60–360 ₽ (в валюте)
Скорость на час аудио~1 минута4–6 часов5–10 минут
Деление на спикеровда, до 5вручнуючастично
Таймкоды по словамнетчастично
Данные в РФ / 152-ФЗда, 4 ЦОД Tier IIIнетнет
Оплата из РФ без VPNМИР/СБП/счёттребует карты/VPN
Минуты сгораютнет (pay-as-you-go)часто да (подписка)

Цена за час

Palatine Speech
17,4 ₽
Ручная расшифровка
600–1200 ₽
Зарубежные сервисы
60–360 ₽ (в валюте)

Скорость на час аудио

Palatine Speech
~1 минута
Ручная расшифровка
4–6 часов
Зарубежные сервисы
5–10 минут

Деление на спикеров

Palatine Speech
да, до 5
Ручная расшифровка
вручную
Зарубежные сервисы
частично

Таймкоды по словам

Palatine Speech
Ручная расшифровка
нет
Зарубежные сервисы
частично

Данные в РФ / 152-ФЗ

Palatine Speech
да, 4 ЦОД Tier III
Ручная расшифровка
нет
Зарубежные сервисы
нет

Оплата из РФ без VPN

Palatine Speech
МИР/СБП/счёт
Ручная расшифровка
Зарубежные сервисы
требует карты/VPN

Минуты сгорают

Palatine Speech
нет (pay-as-you-go)
Ручная расшифровка
Зарубежные сервисы
часто да (подписка)

Сколько стоит транскрибация аудио

Прикиньте стоимость по объёму: 0,29 ₽/мин. Новым пользователям 1000 минут бесплатно выделяем по запросу. Баланс не сгорает, секунды округляются вниз.

Длительность аудио600мин · 10 ч
10 мин6 000 мин
✓ Укладывается в 1 000 бесплатных минут — по запросу
Итого за обработку
174
Новым пользователям 1 000 минут бесплатно — выделяем по запросу

Ответы на вопросы

Не нашли ответ на свой вопрос? Напишите нам

Какая точность у транскрибации аудио в текст?

Средний WER 7,10% (точность по словам 92,9%) — замер на семи открытых датасетах; в бенчмарке мы выше Whisper-large-v3 (7,44) и distil-large-v3 (7,52). На чистой записи точность выше, на телефонии и шуме — около 90% за счёт отдельной модели; кастомный словарь подтягивает термины, имена и аббревиатуры, числа распознаются точно.

Сколько стоит перевести аудио в текст?

От 0,29 ₽/мин — это 17,4 ₽ за час; диаризация (спикеры) — от 0,30 ₽/мин; новым пользователям — 1000 бесплатных минут по запросу; pay-as-you-go без подписки, баланс не сгорает, секунды округляются вниз. Полные тарифы и правила биллинга — на /tarify/.

Какие форматы аудио можно расшифровать?

23+ форматов: MP3, WAV, M4A, OGG, AAC, FLAC и другие, включая аудиодорожки видео. Результат скачивается в TXT, DOCX, SRT, VTT, а по API — CSV, XLSX, JSON.

Как быстро обрабатывается запись?

1–2% от длительности файла: 30 минут ≈ 25 секунд, час аудио ≈ минута. Для сравнения, у большинства сервисов в рунете час занимает 5–7 минут.

Сервис различает нескольких говорящих?

Да, диаризация делит текст до 5 спикеров с таймкодами реплик, работает на многоканальном аудио и в шуме. Реплики подписываются «Спикер ½…», их можно переименовать.

Это безопасно? Куда попадают мои записи?

Обработка в 4 ЦОД уровня Tier III на территории РФ (отказоустойчивость 99,982%), передача по TLS, соответствие 152-ФЗ. Мы не обучаем модели на ваших файлах, не храним и не анализируем их; для бизнеса — договор и NDA.

Можно ли расшифровать подкаст или лекцию длиной несколько часов?

Да, сервис принимает файлы от 10+ часов без деления на части; таймкоды и саммари помогают навигировать по длинной записи и собирать шоуноты.

А короткие голосовые и войсы из мессенджеров?

Их удобнее расшифровать в Telegram-боте @VoicePalatineBot: перешлите голосовое — получите текст со спикерами за секунды, 100 расшифровок в день бесплатно.

Можно ли встроить транскрибацию в своё приложение?

Да, API совместим с SDK OpenAI — достаточно заменить base_url; есть асинхронный polling с выгрузкой SRT/VTT/CSV/XLSX и потоковая транскрибация по WebSocket. 1000 бесплатных минут по запросу хватит на интеграцию и тест.