Опубликовано 25.06.2026

Перетащите видео или аудиодорожку — или нажмите, чтобы выбратьMP3 · WAV · M4A · OGG · MP4 · до 30 минут

Пример результата – так выглядит готовая расшифровка

⏱ 01:10РусскийСпикеры: 3

00:00Спикер 1

Давайте по статусу релиза. Что осталось закрыть до пятницы?

00:06Спикер 2

По бэкенду готово, остаётся прогон тестов и миграция. Думаю, к четвергу закроем.

00:14Спикер 3

На фронте доделываю экран отчётов, к среде отдам на ревью. Дизайн уже согласован.

00:23Спикер 1

Хорошо. Тогда фиксируем: миграция — на тебе, отчёты — на тебе, ревью беру я.

00:31Спикер 2

Ещё нужно обновить документацию по API, иначе интеграторы не поймут новые поля.

00:40Спикер 1

Принято, добавляю задачу. Встречаемся в четверг, смотрим финальную сборку перед выкаткой.

AI-саммари

Планёрка команды: обсуждают релиз, договариваются о сроках по двум задачам и фиксируют ответственных.

Транскрибация видео в текст онлайн

Загрузите ролик, вебинар или запись встречи – нейросеть извлечёт аудиодорожку и вернёт текст с пословными тайм-кодами, спикерами и готовые субтитры SRT/VTT. Точность 92,9%, файлы 10+ часов, от 0,29 ₽ за минуту.

Точность 92,9% (WER 7,10%)
Субтитры SRT/VTT
Таймкоды по словам
До 5 спикеров
Файлы 10+ часов

Живое демо: говорите — текст и таймкоды появятся сразу

Нажмите поле, разрешите микрофон и говорите по-русски — текст появится здесь в реальном времени

живое демо · потоковая транскрибация в реальном времени

Как перевести видео в текст: 3 шага

Транскрибация видео – это перевод звуковой дорожки ролика в текст, без ручной расшифровки и сторонних конвертеров. Перевести видео в текст можно за три шага:

Загрузите файл – перетащите ролик в окно. Palatine Speech сам достанет аудиодорожку из видео, перекодировать ничего не надо.
Задайте настройки – выберите язык или оставьте автоопределение, а если в кадре несколько человек, включите разделение на спикеров.
Скачайте результат – заберите готовый текст или субтитры SRT/VTT с таймкодами.

Перекодировать ролик заранее не нужно: загрузите MP4, MOV, MKV, WebM, AVI или FLV и получите готовую расшифровку. Всё происходит в браузере, без установки программ – это видео в текст онлайн.

Зачем переводить видео в текст

Текст из видео онлайн пригождается в разных ситуациях. Субтитры помогают тем, кто смотрит без звука. Страница с расшифровкой индексируется, и ролик начинает находиться в поиске. По записи легко отыскать нужную реплику. А сам ролик нетрудно переделать в статью, рассылку или конспект. В транскрипте есть пословные таймкоды, а диаризация различает до 5 спикеров, так что на выходе вы получаете текст с таймкодами и разделением на спикеров. Пригодится это для транскрибации вебинара в текст, для лекций, видеоинтервью и записей конференций. Расшифровка видео в текст со спикерами особенно полезна, когда в кадре говорит несколько человек.

Извлечь текст из видео: вручную или нейросетью

Вытащить текст из видео можно и руками, только час записи у фрилансера обходится в 600–1000 ₽ и растягивается на день-два. Нейросеть для транскрибации видео справляется за ~1–2% длительности файла: часовой ролик оцифровывается примерно за минуту. Под капотом – ASR-модель Palatine Speech, обученная на 700 000 часов аудио. На бенчмарке из семи открытых датасетов она показывает 7,10% WER, то есть точность 92,9%, рядом с ElevenLabs (6,88), AssemblyAI (7,03) и Whisper-large-v3 (7,44). Цифры мы не прячем и выкладываем измеримый WER вместе с методикой замера, никаких громких «99%». У конвертера видео в текст от Palatine нет узких лимитов: он берёт 23+ форматов и файлы на 10+ часов, тогда как у многих сервисов потолок в 100 МБ и 15 бесплатных минут, которые потом сгорают. Минуты мы выделяем по запросу, и баланс остаётся на месте. Когда расшифровка готова, её несложно выгрузить в текст, SRT, VTT, CSV или XLSX. Субтитры SRT/VTT мы собираем из транскрипта с таймкодами автоматически, вот вам и готовый путь из видео в SRT. Нужно встроить распознавание в свой продукт? Те же модели мы отдаём по OpenAI-совместимому API – по сути достаточно поменять base_url в коде.

Безопасность: обработка видео в России

Обрабатываем мы всё внутри России. Файлы лежат в 4 ЦОД уровня Tier III, работаем по 152-ФЗ, трафик идёт под TLS-шифрованием. На ваших записях модели не обучаются, сами записи мы не храним и не разбираем. Видео не покидает защищённый контур, а бизнесу мы готовы подписать договор и NDA, так что корпоративные записи встреч и вебинаров грузите спокойно.

Советы для точного результата

Чтобы расшифровка получилась точнее, берите дорожку с чистым звуком: чем меньше музыки и фонового шума, тем выше точность. Если в кадре несколько спикеров, включите диаризацию – реплики разметятся по говорящим. Имена, бренды и отраслевые термины стоит добавить в кастомный словарь, иначе модель может их переврать. Короткие ролики и видео-кружки из Telegram быстрее переслать в Telegram-бот @VoicePalatineBot, там 100 расшифровок в день бесплатно. Бывает, что на входе только звуковая дорожка – тогда возьмите аудио в текст. Нужен короткий пересказ ролика? Его соберёт саммари из видео. Сразу после регистрации бесплатные минуты выделяем по запросу, а дальше счёт идёт от 0,29 ₽/мин, и баланс не сгорает.

Комментарий CEO

Из видео мы берём только аудиодорожку и расшифровываем её целиком — даже многочасовой вебинар уходит в обработку одним файлом, без ручного деления на части. На выходе получается текст с пословными таймкодами, из которого сразу собираются субтитры SRT и VTT, поэтому ролик можно опубликовать с подписями в тот же день.

Валерий ГречинCEO Palatine Speech

Любой формат на входе — текст и субтитры на выходе

вход \ выход	TXT	DOCX	SRT	VTT	JSON
MP3
WAV
M4A
OGG
MP4
Ссылка

MP3
TXTDOCXSRTVTTJSON
WAV
TXTDOCXSRTVTTJSON
M4A
TXTDOCXSRTVTTJSON
OGG
TXTDOCXSRTVTTJSON
MP4
TXTDOCXSRTVTTJSON
Ссылка
TXTDOCXSRTVTTJSON

Сколько будет стоить расшифровка видео

Прикиньте стоимость по длительности роликов: типичный вебинар — это 60–180 минут. Новым пользователям 1000 минут бесплатно выделяем по запросу.

Длительность аудио120мин · 2 ч

10 мин6 000 мин

✓ Укладывается в 1 000 бесплатных минут — по запросу

Итого за обработку

35₽

Новым пользователям 1 000 минут бесплатно — выделяем по запросу

Palatine Speech против ручной расшифровки и зарубежных сервисов

	Palatine Speech	Ручная расшифровка	Зарубежные сервисы
Цена за час видео	17,4 ₽	600–1000 ₽	60–360 ₽ (в валюте)
Скорость на час видео	~1 минута	день-два	5–10 минут
Субтитры SRT/VTT			частично
Деление на спикеров	да, до 5	вручную	частично
Таймкоды по словам			частично
Данные в РФ / 152-ФЗ	да, 4 ЦОД Tier III
Минуты сгорают	нет (pay-as-you-go)	–	часто да (подписка)

Цена за час видео

Palatine Speech: 17,4 ₽
Ручная расшифровка: 600–1000 ₽
Зарубежные сервисы: 60–360 ₽ (в валюте)

Скорость на час видео

Palatine Speech: ~1 минута
Ручная расшифровка: день-два
Зарубежные сервисы: 5–10 минут

Субтитры SRT/VTT

Palatine Speech
Ручная расшифровка
Зарубежные сервисы: частично

Деление на спикеров

Palatine Speech: да, до 5
Ручная расшифровка: вручную
Зарубежные сервисы: частично

Таймкоды по словам

Palatine Speech
Ручная расшифровка
Зарубежные сервисы: частично

Данные в РФ / 152-ФЗ

Palatine Speech: да, 4 ЦОД Tier III
Ручная расшифровка
Зарубежные сервисы

Минуты сгорают

Palatine Speech: нет (pay-as-you-go)
Ручная расшифровка: –
Зарубежные сервисы: часто да (подписка)

Ответы на вопросы

Не нашли ответ на свой вопрос? Напишите нам

Какие форматы файлов поддерживаются?

Принимаем основные аудио- и видеоформаты: MP3, WAV, M4A, OGG, AAC, MP4, MOV и другие, а также ссылки на видео. Результат можно выгрузить в TXT, DOCX, SRT, VTT и JSON.

Какая точность распознавания?

На чистом аудио точность около 92,9% (WER 7,10%). На телефонном канале 8 кГц — порядка 90%. Для шумных записей есть отдельная модель.

Распознаёте, кто из спикеров говорит?

Да, диаризация включена по умолчанию: каждая реплика помечается спикером и тайм-кодом. Это удобно для интервью, встреч и звонков.

Есть ли ограничения на размер и длительность?

В демо — файл до 300 МБ и до 30 минут. На платных тарифах ограничения снимаются, доступна пакетная обработка.

Что с безопасностью данных?

Серверы расположены в РФ, обработка соответствует 152-ФЗ. Данные передаются по TLS, мы не обучаем на них модели и не передаём третьим лицам.

Сколько стоит и есть ли бесплатный период?

По запросу выделяем 1000 минут. Дальше — от 0,29 ₽ за минуту, баланс не сгорает.

Нужно ли конвертировать видео перед загрузкой?

Нет. Принимаем MP4, MOV, MKV, WebM, AVI, FLV и другие форматы — аудиодорожка извлекается автоматически, ничего перекодировать заранее не нужно.

Можно ли получить субтитры SRT или VTT из видео?

Да, это штатный выход: текст с тайм-кодами выгружается в SRT и VTT, готовый файл сразу подходит для YouTube, Rutube или видеоредактора. Для тонкой правки субтитров есть отдельный генератор.