Перетащите видео или аудиодорожку — или нажмите, чтобы выбратьMP3 · WAV · M4A · OGG · MP4 · до 30 минут
Пример результата – так выглядит готовая расшифровка
01:10РусскийСпикеры: 3
00:00Спикер 1

Давайте по статусу релиза. Что осталось закрыть до пятницы?

00:06Спикер 2

По бэкенду готово, остаётся прогон тестов и миграция. Думаю, к четвергу закроем.

00:14Спикер 3

На фронте доделываю экран отчётов, к среде отдам на ревью. Дизайн уже согласован.

00:23Спикер 1

Хорошо. Тогда фиксируем: миграция — на тебе, отчёты — на тебе, ревью беру я.

00:31Спикер 2

Ещё нужно обновить документацию по API, иначе интеграторы не поймут новые поля.

00:40Спикер 1

Принято, добавляю задачу. Встречаемся в четверг, смотрим финальную сборку перед выкаткой.

AI-саммари

Планёрка команды: обсуждают релиз, договариваются о сроках по двум задачам и фиксируют ответственных.

Транскрибация видео в текст онлайн

Загрузите ролик, вебинар или запись встречи – нейросеть извлечёт аудиодорожку и вернёт текст с пословными тайм-кодами, спикерами и готовые субтитры SRT/VTT. Точность 92,9%, файлы 10+ часов, от 0,29 ₽ за минуту.

  • Точность 92,9% (WER 7,10%)
  • Субтитры SRT/VTT
  • Таймкоды по словам
  • До 5 спикеров
  • Файлы 10+ часов
Живое демо: говорите — текст и таймкоды появятся сразу
Нажмите поле, разрешите микрофон и говорите по-русски — текст появится здесь в реальном времени
живое демо · потоковая транскрибация в реальном времени

Как перевести видео в текст: 3 шага

Транскрибация видео – это перевод звуковой дорожки ролика в текст, без ручной расшифровки и сторонних конвертеров. Перевести видео в текст можно за три шага:

  1. Загрузите файл – перетащите ролик в окно. Palatine Speech сам достанет аудиодорожку из видео, перекодировать ничего не надо.
  2. Задайте настройки – выберите язык или оставьте автоопределение, а если в кадре несколько человек, включите разделение на спикеров.
  3. Скачайте результат – заберите готовый текст или субтитры SRT/VTT с таймкодами.

Перекодировать ролик заранее не нужно: загрузите MP4, MOV, MKV, WebM, AVI или FLV и получите готовую расшифровку. Всё происходит в браузере, без установки программ – это видео в текст онлайн.

Зачем переводить видео в текст

Текст из видео онлайн пригождается в разных ситуациях. Субтитры помогают тем, кто смотрит без звука. Страница с расшифровкой индексируется, и ролик начинает находиться в поиске. По записи легко отыскать нужную реплику. А сам ролик нетрудно переделать в статью, рассылку или конспект. В транскрипте есть пословные таймкоды, а диаризация различает до 5 спикеров, так что на выходе вы получаете текст с таймкодами и разделением на спикеров. Пригодится это для транскрибации вебинара в текст, для лекций, видеоинтервью и записей конференций. Расшифровка видео в текст со спикерами особенно полезна, когда в кадре говорит несколько человек.

Извлечь текст из видео: вручную или нейросетью

Вытащить текст из видео можно и руками, только час записи у фрилансера обходится в 600–1000 ₽ и растягивается на день-два. Нейросеть для транскрибации видео справляется за ~1–2% длительности файла: часовой ролик оцифровывается примерно за минуту. Под капотом – ASR-модель Palatine Speech, обученная на 700 000 часов аудио. На бенчмарке из семи открытых датасетов она показывает 7,10% WER, то есть точность 92,9%, рядом с ElevenLabs (6,88), AssemblyAI (7,03) и Whisper-large-v3 (7,44). Цифры мы не прячем и выкладываем измеримый WER вместе с методикой замера, никаких громких «99%». У конвертера видео в текст от Palatine нет узких лимитов: он берёт 23+ форматов и файлы на 10+ часов, тогда как у многих сервисов потолок в 100 МБ и 15 бесплатных минут, которые потом сгорают. Минуты мы выделяем по запросу, и баланс остаётся на месте. Когда расшифровка готова, её несложно выгрузить в текст, SRT, VTT, CSV или XLSX. Субтитры SRT/VTT мы собираем из транскрипта с таймкодами автоматически, вот вам и готовый путь из видео в SRT. Нужно встроить распознавание в свой продукт? Те же модели мы отдаём по OpenAI-совместимому API – по сути достаточно поменять base_url в коде.

Безопасность: обработка видео в России

Обрабатываем мы всё внутри России. Файлы лежат в 4 ЦОД уровня Tier III, работаем по 152-ФЗ, трафик идёт под TLS-шифрованием. На ваших записях модели не обучаются, сами записи мы не храним и не разбираем. Видео не покидает защищённый контур, а бизнесу мы готовы подписать договор и NDA, так что корпоративные записи встреч и вебинаров грузите спокойно.

Советы для точного результата

Чтобы расшифровка получилась точнее, берите дорожку с чистым звуком: чем меньше музыки и фонового шума, тем выше точность. Если в кадре несколько спикеров, включите диаризацию – реплики разметятся по говорящим. Имена, бренды и отраслевые термины стоит добавить в кастомный словарь, иначе модель может их переврать. Короткие ролики и видео-кружки из Telegram быстрее переслать в Telegram-бот @VoicePalatineBot, там 100 расшифровок в день бесплатно. Бывает, что на входе только звуковая дорожка – тогда возьмите аудио в текст. Нужен короткий пересказ ролика? Его соберёт саммари из видео. Сразу после регистрации бесплатные минуты выделяем по запросу, а дальше счёт идёт от 0,29 ₽/мин, и баланс не сгорает.

Комментарий CEO
Из видео мы берём только аудиодорожку и расшифровываем её целиком — даже многочасовой вебинар уходит в обработку одним файлом, без ручного деления на части. На выходе получается текст с пословными таймкодами, из которого сразу собираются субтитры SRT и VTT, поэтому ролик можно опубликовать с подписями в тот же день.
Валерий ГречинCEO Palatine Speech

Любой формат на входе — текст и субтитры на выходе

вход \ выходTXTDOCXSRTVTTJSON
MP3
WAV
M4A
OGG
MP4
Ссылка
  • MP3

    TXTDOCXSRTVTTJSON
  • WAV

    TXTDOCXSRTVTTJSON
  • M4A

    TXTDOCXSRTVTTJSON
  • OGG

    TXTDOCXSRTVTTJSON
  • MP4

    TXTDOCXSRTVTTJSON
  • Ссылка

    TXTDOCXSRTVTTJSON

Сколько будет стоить расшифровка видео

Прикиньте стоимость по длительности роликов: типичный вебинар — это 60–180 минут. Новым пользователям 1000 минут бесплатно выделяем по запросу.

Длительность аудио120мин · 2 ч
10 мин6 000 мин
✓ Укладывается в 1 000 бесплатных минут — по запросу
Итого за обработку
35
Новым пользователям 1 000 минут бесплатно — выделяем по запросу

Palatine Speech против ручной расшифровки и зарубежных сервисов

Palatine SpeechРучная расшифровкаЗарубежные сервисы
Цена за час видео17,4 ₽600–1000 ₽60–360 ₽ (в валюте)
Скорость на час видео~1 минутадень-два5–10 минут
Субтитры SRT/VTTнетчастично
Деление на спикеровда, до 5вручнуючастично
Таймкоды по словамнетчастично
Данные в РФ / 152-ФЗда, 4 ЦОД Tier IIIнетнет
Минуты сгораютнет (pay-as-you-go)часто да (подписка)

Цена за час видео

Palatine Speech
17,4 ₽
Ручная расшифровка
600–1000 ₽
Зарубежные сервисы
60–360 ₽ (в валюте)

Скорость на час видео

Palatine Speech
~1 минута
Ручная расшифровка
день-два
Зарубежные сервисы
5–10 минут

Субтитры SRT/VTT

Palatine Speech
Ручная расшифровка
нет
Зарубежные сервисы
частично

Деление на спикеров

Palatine Speech
да, до 5
Ручная расшифровка
вручную
Зарубежные сервисы
частично

Таймкоды по словам

Palatine Speech
Ручная расшифровка
нет
Зарубежные сервисы
частично

Данные в РФ / 152-ФЗ

Palatine Speech
да, 4 ЦОД Tier III
Ручная расшифровка
нет
Зарубежные сервисы
нет

Минуты сгорают

Palatine Speech
нет (pay-as-you-go)
Ручная расшифровка
Зарубежные сервисы
часто да (подписка)

Ответы на вопросы

Не нашли ответ на свой вопрос? Напишите нам

Какие форматы файлов поддерживаются?

Принимаем основные аудио- и видеоформаты: MP3, WAV, M4A, OGG, AAC, MP4, MOV и другие, а также ссылки на видео. Результат можно выгрузить в TXT, DOCX, SRT, VTT и JSON.

Какая точность распознавания?

На чистом аудио точность около 92,9% (WER 7,10%). На телефонном канале 8 кГц — порядка 90%. Для шумных записей есть отдельная модель.

Распознаёте, кто из спикеров говорит?

Да, диаризация включена по умолчанию: каждая реплика помечается спикером и тайм-кодом. Это удобно для интервью, встреч и звонков.

Есть ли ограничения на размер и длительность?

В демо — файл до 300 МБ и до 30 минут. На платных тарифах ограничения снимаются, доступна пакетная обработка.

Что с безопасностью данных?

Серверы расположены в РФ, обработка соответствует 152-ФЗ. Данные передаются по TLS, мы не обучаем на них модели и не передаём третьим лицам.

Сколько стоит и есть ли бесплатный период?

По запросу выделяем 1000 минут. Дальше — от 0,29 ₽ за минуту, баланс не сгорает.

Нужно ли конвертировать видео перед загрузкой?

Нет. Принимаем MP4, MOV, MKV, WebM, AVI, FLV и другие форматы — аудиодорожка извлекается автоматически, ничего перекодировать заранее не нужно.

Можно ли получить субтитры SRT или VTT из видео?

Да, это штатный выход: текст с тайм-кодами выгружается в SRT и VTT, готовый файл сразу подходит для YouTube, Rutube или видеоредактора. Для тонкой правки субтитров есть отдельный генератор.