Опубликовано 25.06.2026

Speech-to-Text API – распознавание речи для разработчиков

OpenAI-совместимый Speech-to-Text API для интеграции в ваш продукт: распознавание речи с WER 7,1%, пословные таймкоды, диаризация спикеров, ~100 языков. Синхронный запрос, асинхронный Polling API и потоковый WebSocket. Обработка в РФ по 152-ФЗ.

от 0,29 ₽/мин
WER 7,1% (WAcc 92,9%)
~100 языков
Пословные таймкоды
OpenAI-совместимый
152-ФЗ · 4 ЦОД Tier III
1000 минут на тест по запросу

Содержание

Живое демо: говорите — API вернёт текст с таймкодами

Нажмите поле, разрешите микрофон и говорите по-русски — текст появится здесь в реальном времени

живое демо · потоковая транскрибация в реальном времени

Speech-to-Text API Palatine Speech – это программный интерфейс распознавания речи, который вы встраиваете в свой продукт: CRM, колл-центр, голосовой ввод или медиаплатформу. Работает он как REST/WebSocket API с ключом, OpenAI-совместимым endpoint и JSON-ответом; онлайн-аплоадера «перетащи файл» здесь нет. Русскую речь движок распознаёт с WER 7,10% (WAcc 92,9%), возвращает пословные таймкоды и диаризацию спикеров, понимает ~100 языков, а стоит это от 0,29 ₽/мин. Дальше – код, формат JSON-ответа, бенчмарк и сравнение с вендорами.

Подключение за 5 минут: три способа интеграции

Вызвать API можно тремя способами, под разные сценарии: синхронный HTTP-запрос для коротких файлов, асинхронный Polling API для длинных записей и потоковый WebSocket для реального времени. Ключ при этом один на все три.

OpenAI SDK – замена `base_url`

Palatine API совместим с OpenAI на уровне Speech-to-Text. Чтобы подключить OpenAI SDK к Palatine, вы меняете base_url на https://api.palatine.ru/api/v1 – на этом миграция с Whisper API и заканчивается, переписывать код не нужно. Если ваше rest api распознавание речи уже крутится на инфраструктуре OpenAI, команда правит один параметр в SDK, и всё работает без рефакторинга. Openai совместимый api распознавания речи доступен сразу после выдачи ключа, отдельной интеграции под Palatine не требуется.

cURL-запрос и JSON-ответ с пословными таймкодами

Endpoint POST /audio/transcriptions принимает аудио и видео в 23+ форматах. В JSON-ответе лежат пословные таймкоды: для каждого слова возвращаются start и end, а сегменты помечены спикерами. Получается, что таймкоды и спикеры приходят одним объектом, и для речевой аналитики или расшифровки звонков этого достаточно – видно, кто и когда говорил. Полную схему полей мы держим в документации.

Асинхронный Polling API для файлов 10+ часов

Длинные файлы, от 10+ часов, обслуживает асинхронный Polling API. Метод do_transcribe возвращает task_id, статус вы опрашиваете через task_status, готовый результат забираете методом download_as_file, а финальное состояние – task_done. На практике контакт-центр отправляет 10-часовую запись, получает task_id и позже выгружает результат в SRT или CSV, не держа открытое соединение. Готовность задачи вы отслеживаете опросом task_status, а файл забираете, когда статус стал финальным.

Потоковый WebSocket `wss://`

Потоковое распознавание речи api идёт через WebSocket wss://: так вы получаете транскрибацию в реальном времени – для голосового ввода, live-субтитров и суфлёра. Голосовой ассистент стримит аудио по WebSocket и видит live-субтитры по мере речи. Статус потоковой задачи приходит тем же стримом, по мере распознавания.

Выгрузка SRT/VTT/CSV/XLSX

Кроме JSON, результат можно выгрузить в SRT, VTT, CSV и XLSX через download_as_file – под субтитры, монтаж и табличный экспорт. DOCX по API мы не отдаём.

Возможности Speech-to-Text API

Одним распознаванием возможности не ограничены: в том же ключе доступны диаризация, мультиязычность и постобработка транскрипта LLM.

OpenAI-совместимость

Endpoint POST /audio/transcriptions и OpenAI SDK работают через ту же замену base_url, поэтому порог входа низкий: api на русском вы подключаете тем же кодом, что и оригинальный Whisper API. При миграции с whisper api модель вызова, схему запроса и парсинг ответа менять не нужно.

Диаризация и пословные таймкоды

Диаризация размечает до 5 спикеров за ≤ 0,30 ₽/мин, с VAD и устойчивостью к шуму. В JSON-ответе для каждого слова есть start и end, поэтому диаризация спикеров и пословные таймкоды складываются в один транскрипт, склеивать на своей стороне ничего не нужно.

100 языков, кастомные словари, точные числа

~100 языков с автоопределением, включая русский и языки СНГ, API распознаёт из коробки. На доменной лексике – терминах, брендах и именах – точность поднимают кастомные словари, а числа, счета и даты приходят цифрами, не прописью.

Тональность, саммари, Чат с LLM и MCP в том же API

Поверх транскрипта в том же API лежат анализ тональности, саммари из аудио, чат с LLM и MCP-коннектор для агентов. Пригодится, когда вы строите голосовых ассистентов или речевую аналитику и не хотите подключать отдельный LLM-провайдер.

Точность и скорость: открытый бенчмарк

Метрики мы публикуем вместе с методикой, без маркетингового «точность 98%».

WER 7,10% / WAcc 92,9% на 7 датасетах

На 7 датасетах модель Palatine даёт WER 7,10% и WAcc 92,9%. Whisper-large-v3 по WER слабее – 7,44% против 7,10%. ElevenLabs (6,88) и AssemblyAI (7,03) по WER точнее, но они дороже, медленнее и без обработки в РФ, так что наш выигрыш складывается из триады «скорость + цена + 152-ФЗ». На телефонии 8 кГц точность ~90%.

Скорость 1–2% длительности (~25 сек на 30 мин)

Само распознавание занимает 1–2% длительности файла: 30-минутную запись обрабатываем примерно за 25 секунд. SpeechKit на том же файле тратит около двух минут.

Сравнение с Yandex SpeechKit, SaluteSpeech и Whisper

В таблице выше Palatine сравнивается с вендорами по WER, цене, скорости, лимитам и обработке в РФ. Если коротко: по WER мы обгоняем Whisper-large-v3 (7,10% против 7,44%), по скорости отрыв кратный (~25 сек против ~2–10 мин на 30 мин). WER у SpeechKit и SaluteSpeech открыто не публикуется, поэтому в таблице стоит «н/д» вместо выдуманных процентов. Цены конкурентов взяты по открытым тарифам на 25.06.2026 и пересматриваются ежеквартально.

Комментарий CEO

Наш Speech-to-Text API совместим с SDK OpenAI: чтобы перейти на Palatine, достаточно заменить base_url — переписывать интеграцию и логику не нужно, рабочий код остаётся прежним. В ответ приходит обычный JSON с пословными таймкодами и разметкой спикеров, поэтому встроить распознавание в продукт можно за один вечер.

Валерий ГречинCEO Palatine Speech

Лимиты, форматы и rate limits

Входные форматы и длительность

Endpoint принимает 23+ входных формата (mp3, wav, m4a, ogg, mp4 и др.) и файлы длительностью 10+ часов. Длинные записи отправляйте через асинхронный Polling API; синхронный запрос для них не подходит.

Rate limits – в документации, без выдумок

Конкретные rate limits зависят от тарифа. Актуальные значения мы держим в документации и не дублируем на лендинге, чтобы не путать цифрами. Перед выводом на прод под нагрузку сверьте лимиты по доке.

Цены: pay-as-you-go от 0,29 ₽/мин

Модель → цена

Транскрибация стоит от 0,29 ₽/мин, то есть 17,4 ₽/час, по модели pay-as-you-go от 0,29 ₽. Вы платите за фактические минуты, баланс не сгорает, а секунды округляются вниз в пользу клиента. Диаризация обойдётся в ≤ 0,30 ₽/мин.

1000 бесплатных минут и правила биллинга

На старте тестовые минуты мы выделяем по запросу – их хватает, чтобы проверить формат ответа и качество до нагрузки. Для ориентира: 1000 минут ≈ 290 ₽. Подписки нет, оплата картой МИР, СБП или по счёту. Полные тарифы и правила биллинга собраны на /tarify/.

Безопасность: 152-ФЗ и обработка данных в России

4 ЦОД Tier III и TLS

Данные клиентов мы обрабатываем в 4 ЦОД уровня Tier III в РФ, отказоустойчивость – 99,982%. Обработка данных в РФ идёт по 152-ФЗ, передача – по TLS.

Не обучаем на ваших данных + on-premise

Palatine не обучает модели на данных клиентов и файлы не хранит. Для банков, медицины и госсектора есть on-premise тариф: он ставится локально (офлайн) в контуре заказчика, с дообучением модели под домен и кастомными словарями.

Как получить API-ключ и начать

3 шага

Получите ключ. Зарегистрируйтесь или напишите нам; мы выдадим API-ключ, а тестовые минуты выделим по запросу.
Замените base_url на https://api.palatine.ru/api/v1 в OpenAI SDK – или вызовите POST /audio/transcriptions через cURL.
Заберите JSON с текстом, спикерами и пословными таймкодами либо выгрузите результат в SRT/VTT/CSV/XLSX.

Помощь с миграцией с OpenAI/ElevenLabs

На Корпоративном тарифе мы помогаем перенести интеграцию с OpenAI или ElevenLabs, подобрать тариф под объём и собрать кастомный словарь под вашу доменную лексику.

Speech-to-text API

OpenAI-совместимый эндпоинт. Транскрибация, диаризация и тайм-коды одним запросом.

Получите ключ
Зарегистрируйтесь и создайте API-ключ в личном кабинете.
Отправьте файл
POST /transcribe/do_transcribe с аудио или ссылкой, выберите язык и диаризацию — в ответ придёт task_id.
Заберите результат
Опрашивайте GET /transcribe/task_status/{task_id}, затем скачайте текст через GET /transcribe/download_as_file/{task_id}.

Запросbash

curl https://api.palatine.ru/api/v1/transcribe/do_transcribe \
  -H "Authorization: Bearer $API_KEY" \
  -F "file=@meeting.mp3" \
  -F "language=ru" \
  -F "diarization=true"

Ответjson

{
  "task_id": "f3c1...",
  "data": {
    "language": "ru",
    "duration": 64.2,
    "text": "Добрый день! Подскажите...",
    "segments": [
      { "start": 0.4, "end": 5.8, "speaker": "speaker_0",
        "text": "Добрый день! Подскажите..." }
    ]
  }
}

Стоимость

Транскрибация: от 0,29 ₽/мин
Диаризация: включена

Документация

Palatine против Yandex SpeechKit, SaluteSpeech и Whisper

Сравнение по открытым тарифам и нашему бенчмарку на 7 датасетах. Цены конкурентов — по данным открытых тарифов на 25.06.2026.

		Palatine	Yandex SpeechKit	SaluteSpeech
WER (наш бенчмарк, 7 датасетов)	7,10%	н/д	н/д	7,44%
Цена	от 0,29 ₽/мин	по тарифу Yandex Cloud	по тарифу SberDevices	$0,006/мин
30-мин файл	~25 сек	~2 мин	н/д	~10 мин
Диаризация	до 5 спикеров
Пословные таймкоды			частично
OpenAI-совместимость
Потоковый режим	WebSocket wss://	gRPC	gRPC
Длительность файла	10+ часов	по лимитам	по лимитам	25 МБ/запрос
Обработка в РФ / 152-ФЗ	4 ЦОД Tier III
Free tier	1000 мин по запросу	пробный грант	пробный грант

WER (наш бенчмарк, 7 датасетов)

: 7,10%
Palatine: н/д
Yandex SpeechKit: н/д
SaluteSpeech: 7,44%
Whisper API

Цена

: от 0,29 ₽/мин
Palatine: по тарифу Yandex Cloud
Yandex SpeechKit: по тарифу SberDevices
SaluteSpeech: $0,006/мин
Whisper API

30-мин файл

: ~25 сек
Palatine: ~2 мин
Yandex SpeechKit: н/д
SaluteSpeech: ~10 мин
Whisper API

Диаризация

: до 5 спикеров
Palatine
Yandex SpeechKit
SaluteSpeech
Whisper API

Пословные таймкоды


Palatine
Yandex SpeechKit: частично
SaluteSpeech
Whisper API

OpenAI-совместимость


Palatine
Yandex SpeechKit
SaluteSpeech
Whisper API

Потоковый режим

: WebSocket wss://
Palatine: gRPC
Yandex SpeechKit: gRPC
SaluteSpeech
Whisper API

Длительность файла

: 10+ часов
Palatine: по лимитам
Yandex SpeechKit: по лимитам
SaluteSpeech: 25 МБ/запрос
Whisper API

Обработка в РФ / 152-ФЗ

: 4 ЦОД Tier III
Palatine
Yandex SpeechKit
SaluteSpeech
Whisper API

Free tier

: 1000 мин по запросу
Palatine: пробный грант
Yandex SpeechKit: пробный грант
SaluteSpeech
Whisper API

Ответы на вопросы

Не нашли ответ на свой вопрос? Напишите нам

Есть ли API для интеграции?

Да, есть OpenAI-совместимый API с транскрибацией и диаризацией. Документация доступна на docs.speech.palatine.ru.

Есть ли ограничения на размер и длительность?

В демо — файл до 300 МБ и до 30 минут. На платных тарифах ограничения снимаются, доступна пакетная обработка.

Что с безопасностью данных?

Серверы расположены в РФ, обработка соответствует 152-ФЗ. Данные передаются по TLS, мы не обучаем на них модели и не передаём третьим лицам.

Какие языки поддерживаются?

Поддерживаем около 100 языков, включая русский и языки СНГ. Язык можно указать вручную или определить автоматически.

Какая точность распознавания?

На чистом аудио точность около 92,9% (WER 7,10%). На телефонном канале 8 кГц — порядка 90%. Для шумных записей есть отдельная модель.

Чем Palatine отличается от OpenAI Whisper API?

Endpoint OpenAI-совместим: миграция = замена base_url на https://api.palatine.ru/api/v1, код не меняется. WER 7,10% против 7,44% у whisper-large-v3 (наш бенчмарк на 7 датасетах), оплата в рублях без зарубежной карты, обработка в 4 ЦОД РФ по 152-ФЗ и 1000 минут на тест по запросу.

Как мигрировать с OpenAI или ElevenLabs?

В SDK OpenAI замените base_url и ключ — переписывать код не нужно. Поможем с переносом на Корпоративном тарифе, соберём кастомный словарь под вашу лексику и подберём тариф под объём.

Как обрабатываются длинные файлы и где взять статус задачи?

Длинные записи идут через асинхронный Polling API: do_transcribe возвращает task_id, готовность вы опрашиваете через task_status, результат забираете через download_as_file (SRT/VTT/CSV/XLSX). Для реального времени — потоковый WebSocket wss://: транскрипт приходит стримом по мере речи.

Есть ли потоковое распознавание в реальном времени?

Да, WebSocket (wss://) для голосового ввода, live-субтитров и ботов; стриминг доступен уже на Стандартном тарифе, гайд — в документации.

В каких форматах можно выгрузить результат?

JSON с текстом, спикерами и пословными тайм-кодами по API, а также выгрузка в SRT, VTT, CSV и XLSX через download_as_file. DOCX по API не отдаём.

Сколько стоит распознавание и как списываются деньги?

От 0,29 ₽/мин (17,4 ₽/час), pay-as-you-go без подписки. Баланс не сгорает, секунды округляются вниз; 1000 минут ≈ 290 ₽. Полные тарифы — на /tarify/.

Можно ли быстро проверить распознавание без кода?

Да: чтобы оценить качество перед интеграцией, перешлите аудио или голосовое Telegram-боту @VoicePalatineBot (https://t.me/VoicePalatineBot) — он вернёт текст со спикерами и тайм-кодами на тех же моделях. Для боевого внедрения используйте API.

Speech-to-Text API – распознавание речи для разработчиков

Подключение за 5 минут: три способа интеграции

OpenAI SDK – замена base_url

cURL-запрос и JSON-ответ с пословными таймкодами

Асинхронный Polling API для файлов 10+ часов

Потоковый WebSocket wss://

Выгрузка SRT/VTT/CSV/XLSX

Возможности Speech-to-Text API

OpenAI-совместимость

Диаризация и пословные таймкоды

100 языков, кастомные словари, точные числа

Тональность, саммари, Чат с LLM и MCP в том же API

Точность и скорость: открытый бенчмарк

WER 7,10% / WAcc 92,9% на 7 датасетах

Скорость 1–2% длительности (~25 сек на 30 мин)

Сравнение с Yandex SpeechKit, SaluteSpeech и Whisper

Лимиты, форматы и rate limits

Входные форматы и длительность

Rate limits – в документации, без выдумок

Цены: pay-as-you-go от 0,29 ₽/мин

Модель → цена

1000 бесплатных минут и правила биллинга

Безопасность: 152-ФЗ и обработка данных в России

4 ЦОД Tier III и TLS

Не обучаем на ваших данных + on-premise

Как получить API-ключ и начать

3 шага

Помощь с миграцией с OpenAI/ElevenLabs

Получите ключ

Отправьте файл

Заберите результат

WER (наш бенчмарк, 7 датасетов)

Цена

30-мин файл

Диаризация

Пословные таймкоды

OpenAI-совместимость

Потоковый режим

Длительность файла

Обработка в РФ / 152-ФЗ

Free tier

OpenAI SDK – замена `base_url`

Потоковый WebSocket `wss://`