Speech-to-Text API – распознавание речи для разработчиков

OpenAI-совместимый Speech-to-Text API для интеграции в ваш продукт: распознавание речи с WER 7,1%, пословные таймкоды, диаризация спикеров, ~100 языков. Синхронный запрос, асинхронный Polling API и потоковый WebSocket. Обработка в РФ по 152-ФЗ.

  • от 0,29 ₽/мин
  • WER 7,1% (WAcc 92,9%)
  • ~100 языков
  • Пословные таймкоды
  • OpenAI-совместимый
  • 152-ФЗ · 4 ЦОД Tier III
  • 1000 минут на тест по запросу
Живое демо: говорите — API вернёт текст с таймкодами
Нажмите поле, разрешите микрофон и говорите по-русски — текст появится здесь в реальном времени
живое демо · потоковая транскрибация в реальном времени

Speech-to-Text API Palatine Speech – это программный интерфейс распознавания речи, который вы встраиваете в свой продукт: CRM, колл-центр, голосовой ввод или медиаплатформу. Работает он как REST/WebSocket API с ключом, OpenAI-совместимым endpoint и JSON-ответом; онлайн-аплоадера «перетащи файл» здесь нет. Русскую речь движок распознаёт с WER 7,10% (WAcc 92,9%), возвращает пословные таймкоды и диаризацию спикеров, понимает ~100 языков, а стоит это от 0,29 ₽/мин. Дальше – код, формат JSON-ответа, бенчмарк и сравнение с вендорами.

Подключение за 5 минут: три способа интеграции

Вызвать API можно тремя способами, под разные сценарии: синхронный HTTP-запрос для коротких файлов, асинхронный Polling API для длинных записей и потоковый WebSocket для реального времени. Ключ при этом один на все три.

OpenAI SDK – замена base_url

Palatine API совместим с OpenAI на уровне Speech-to-Text. Чтобы подключить OpenAI SDK к Palatine, вы меняете base_url на https://api.palatine.ru/api/v1 – на этом миграция с Whisper API и заканчивается, переписывать код не нужно. Если ваше rest api распознавание речи уже крутится на инфраструктуре OpenAI, команда правит один параметр в SDK, и всё работает без рефакторинга. Openai совместимый api распознавания речи доступен сразу после выдачи ключа, отдельной интеграции под Palatine не требуется.

cURL-запрос и JSON-ответ с пословными таймкодами

Endpoint POST /audio/transcriptions принимает аудио и видео в 23+ форматах. В JSON-ответе лежат пословные таймкоды: для каждого слова возвращаются start и end, а сегменты помечены спикерами. Получается, что таймкоды и спикеры приходят одним объектом, и для речевой аналитики или расшифровки звонков этого достаточно – видно, кто и когда говорил. Полную схему полей мы держим в документации.

Асинхронный Polling API для файлов 10+ часов

Длинные файлы, от 10+ часов, обслуживает асинхронный Polling API. Метод do_transcribe возвращает task_id, статус вы опрашиваете через task_status, готовый результат забираете методом download_as_file, а финальное состояние – task_done. На практике контакт-центр отправляет 10-часовую запись, получает task_id и позже выгружает результат в SRT или CSV, не держа открытое соединение. Готовность задачи вы отслеживаете опросом task_status, а файл забираете, когда статус стал финальным.

Потоковый WebSocket wss://

Потоковое распознавание речи api идёт через WebSocket wss://: так вы получаете транскрибацию в реальном времени – для голосового ввода, live-субтитров и суфлёра. Голосовой ассистент стримит аудио по WebSocket и видит live-субтитры по мере речи. Статус потоковой задачи приходит тем же стримом, по мере распознавания.

Выгрузка SRT/VTT/CSV/XLSX

Кроме JSON, результат можно выгрузить в SRT, VTT, CSV и XLSX через download_as_file – под субтитры, монтаж и табличный экспорт. DOCX по API мы не отдаём.

Возможности Speech-to-Text API

Одним распознаванием возможности не ограничены: в том же ключе доступны диаризация, мультиязычность и постобработка транскрипта LLM.

OpenAI-совместимость

Endpoint POST /audio/transcriptions и OpenAI SDK работают через ту же замену base_url, поэтому порог входа низкий: api на русском вы подключаете тем же кодом, что и оригинальный Whisper API. При миграции с whisper api модель вызова, схему запроса и парсинг ответа менять не нужно.

Диаризация и пословные таймкоды

Диаризация размечает до 5 спикеров за ≤ 0,30 ₽/мин, с VAD и устойчивостью к шуму. В JSON-ответе для каждого слова есть start и end, поэтому диаризация спикеров и пословные таймкоды складываются в один транскрипт, склеивать на своей стороне ничего не нужно.

100 языков, кастомные словари, точные числа

~100 языков с автоопределением, включая русский и языки СНГ, API распознаёт из коробки. На доменной лексике – терминах, брендах и именах – точность поднимают кастомные словари, а числа, счета и даты приходят цифрами, не прописью.

Тональность, саммари, Чат с LLM и MCP в том же API

Поверх транскрипта в том же API лежат анализ тональности, саммари из аудио, чат с LLM и MCP-коннектор для агентов. Пригодится, когда вы строите голосовых ассистентов или речевую аналитику и не хотите подключать отдельный LLM-провайдер.

Точность и скорость: открытый бенчмарк

Метрики мы публикуем вместе с методикой, без маркетингового «точность 98%».

WER 7,10% / WAcc 92,9% на 7 датасетах

На 7 датасетах модель Palatine даёт WER 7,10% и WAcc 92,9%. Whisper-large-v3 по WER слабее – 7,44% против 7,10%. ElevenLabs (6,88) и AssemblyAI (7,03) по WER точнее, но они дороже, медленнее и без обработки в РФ, так что наш выигрыш складывается из триады «скорость + цена + 152-ФЗ». На телефонии 8 кГц точность ~90%.

Скорость 1–2% длительности (~25 сек на 30 мин)

Само распознавание занимает 1–2% длительности файла: 30-минутную запись обрабатываем примерно за 25 секунд. SpeechKit на том же файле тратит около двух минут.

Сравнение с Yandex SpeechKit, SaluteSpeech и Whisper

В таблице выше Palatine сравнивается с вендорами по WER, цене, скорости, лимитам и обработке в РФ. Если коротко: по WER мы обгоняем Whisper-large-v3 (7,10% против 7,44%), по скорости отрыв кратный (~25 сек против ~2–10 мин на 30 мин). WER у SpeechKit и SaluteSpeech открыто не публикуется, поэтому в таблице стоит «н/д» вместо выдуманных процентов. Цены конкурентов взяты по открытым тарифам на 25.06.2026 и пересматриваются ежеквартально.

Комментарий CEO
Наш Speech-to-Text API совместим с SDK OpenAI: чтобы перейти на Palatine, достаточно заменить base_url — переписывать интеграцию и логику не нужно, рабочий код остаётся прежним. В ответ приходит обычный JSON с пословными таймкодами и разметкой спикеров, поэтому встроить распознавание в продукт можно за один вечер.
Валерий ГречинCEO Palatine Speech

Лимиты, форматы и rate limits

Входные форматы и длительность

Endpoint принимает 23+ входных формата (mp3, wav, m4a, ogg, mp4 и др.) и файлы длительностью 10+ часов. Длинные записи отправляйте через асинхронный Polling API; синхронный запрос для них не подходит.

Rate limits – в документации, без выдумок

Конкретные rate limits зависят от тарифа. Актуальные значения мы держим в документации и не дублируем на лендинге, чтобы не путать цифрами. Перед выводом на прод под нагрузку сверьте лимиты по доке.

Цены: pay-as-you-go от 0,29 ₽/мин

Модель → цена

Транскрибация стоит от 0,29 ₽/мин, то есть 17,4 ₽/час, по модели pay-as-you-go от 0,29 ₽. Вы платите за фактические минуты, баланс не сгорает, а секунды округляются вниз в пользу клиента. Диаризация обойдётся в ≤ 0,30 ₽/мин.

1000 бесплатных минут и правила биллинга

На старте тестовые минуты мы выделяем по запросу – их хватает, чтобы проверить формат ответа и качество до нагрузки. Для ориентира: 1000 минут ≈ 290 ₽. Подписки нет, оплата картой МИР, СБП или по счёту. Полные тарифы и правила биллинга собраны на /tarify/.

Безопасность: 152-ФЗ и обработка данных в России

4 ЦОД Tier III и TLS

Данные клиентов мы обрабатываем в 4 ЦОД уровня Tier III в РФ, отказоустойчивость – 99,982%. Обработка данных в РФ идёт по 152-ФЗ, передача – по TLS.

Не обучаем на ваших данных + on-premise

Palatine не обучает модели на данных клиентов и файлы не хранит. Для банков, медицины и госсектора есть on-premise тариф: он ставится локально (офлайн) в контуре заказчика, с дообучением модели под домен и кастомными словарями.

Как получить API-ключ и начать

3 шага

  1. Получите ключ. Зарегистрируйтесь или напишите нам; мы выдадим API-ключ, а тестовые минуты выделим по запросу.
  2. Замените base_url на https://api.palatine.ru/api/v1 в OpenAI SDK – или вызовите POST /audio/transcriptions через cURL.
  3. Заберите JSON с текстом, спикерами и пословными таймкодами либо выгрузите результат в SRT/VTT/CSV/XLSX.

Помощь с миграцией с OpenAI/ElevenLabs

На Корпоративном тарифе мы помогаем перенести интеграцию с OpenAI или ElevenLabs, подобрать тариф под объём и собрать кастомный словарь под вашу доменную лексику.

Speech-to-text API

OpenAI-совместимый эндпоинт. Транскрибация, диаризация и тайм-коды одним запросом.

  1. Получите ключ

    Зарегистрируйтесь и создайте API-ключ в личном кабинете.

  2. Отправьте файл

    POST /transcribe/do_transcribe с аудио или ссылкой, выберите язык и диаризацию — в ответ придёт task_id.

  3. Заберите результат

    Опрашивайте GET /transcribe/task_status/{task_id}, затем скачайте текст через GET /transcribe/download_as_file/{task_id}.

Запросbash
curl https://api.palatine.ru/api/v1/transcribe/do_transcribe \
  -H "Authorization: Bearer $API_KEY" \
  -F "file=@meeting.mp3" \
  -F "language=ru" \
  -F "diarization=true"
Ответjson
{
  "task_id": "f3c1...",
  "data": {
    "language": "ru",
    "duration": 64.2,
    "text": "Добрый день! Подскажите...",
    "segments": [
      { "start": 0.4, "end": 5.8, "speaker": "speaker_0",
        "text": "Добрый день! Подскажите..." }
    ]
  }
}
Стоимость
Транскрибация
от 0,29 ₽/мин
Диаризация
включена
Документация

Palatine против Yandex SpeechKit, SaluteSpeech и Whisper

Сравнение по открытым тарифам и нашему бенчмарку на 7 датасетах. Цены конкурентов — по данным открытых тарифов на 25.06.2026.

PalatineYandex SpeechKitSaluteSpeechWhisper API
WER (наш бенчмарк, 7 датасетов)7,10%н/дн/д7,44%
Ценаот 0,29 ₽/минпо тарифу Yandex Cloudпо тарифу SberDevices$0,006/мин
30-мин файл~25 сек~2 минн/д~10 мин
Диаризациядо 5 спикеровнет
Пословные таймкодычастично
OpenAI-совместимостьнетнет
Потоковый режимWebSocket wss://gRPCgRPCнет
Длительность файла10+ часовпо лимитампо лимитам25 МБ/запрос
Обработка в РФ / 152-ФЗ4 ЦОД Tier IIIнет
Free tier1000 мин по запросупробный грантпробный грантнет

WER (наш бенчмарк, 7 датасетов)

7,10%
Palatine
н/д
Yandex SpeechKit
н/д
SaluteSpeech
7,44%
Whisper API

Цена

от 0,29 ₽/мин
Palatine
по тарифу Yandex Cloud
Yandex SpeechKit
по тарифу SberDevices
SaluteSpeech
$0,006/мин
Whisper API

30-мин файл

~25 сек
Palatine
~2 мин
Yandex SpeechKit
н/д
SaluteSpeech
~10 мин
Whisper API

Диаризация

до 5 спикеров
Palatine
Yandex SpeechKit
SaluteSpeech
нет
Whisper API

Пословные таймкоды

Palatine
Yandex SpeechKit
частично
SaluteSpeech
Whisper API

OpenAI-совместимость

Palatine
нет
Yandex SpeechKit
нет
SaluteSpeech
Whisper API

Потоковый режим

WebSocket wss://
Palatine
gRPC
Yandex SpeechKit
gRPC
SaluteSpeech
нет
Whisper API

Длительность файла

10+ часов
Palatine
по лимитам
Yandex SpeechKit
по лимитам
SaluteSpeech
25 МБ/запрос
Whisper API

Обработка в РФ / 152-ФЗ

4 ЦОД Tier III
Palatine
Yandex SpeechKit
SaluteSpeech
нет
Whisper API

Free tier

1000 мин по запросу
Palatine
пробный грант
Yandex SpeechKit
пробный грант
SaluteSpeech
нет
Whisper API

Ответы на вопросы

Не нашли ответ на свой вопрос? Напишите нам

Есть ли API для интеграции?

Да, есть OpenAI-совместимый API с транскрибацией и диаризацией. Документация доступна на docs.speech.palatine.ru.

Есть ли ограничения на размер и длительность?

В демо — файл до 300 МБ и до 30 минут. На платных тарифах ограничения снимаются, доступна пакетная обработка.

Что с безопасностью данных?

Серверы расположены в РФ, обработка соответствует 152-ФЗ. Данные передаются по TLS, мы не обучаем на них модели и не передаём третьим лицам.

Какие языки поддерживаются?

Поддерживаем около 100 языков, включая русский и языки СНГ. Язык можно указать вручную или определить автоматически.

Какая точность распознавания?

На чистом аудио точность около 92,9% (WER 7,10%). На телефонном канале 8 кГц — порядка 90%. Для шумных записей есть отдельная модель.

Чем Palatine отличается от OpenAI Whisper API?

Endpoint OpenAI-совместим: миграция = замена base_url на https://api.palatine.ru/api/v1, код не меняется. WER 7,10% против 7,44% у whisper-large-v3 (наш бенчмарк на 7 датасетах), оплата в рублях без зарубежной карты, обработка в 4 ЦОД РФ по 152-ФЗ и 1000 минут на тест по запросу.

Как мигрировать с OpenAI или ElevenLabs?

В SDK OpenAI замените base_url и ключ — переписывать код не нужно. Поможем с переносом на Корпоративном тарифе, соберём кастомный словарь под вашу лексику и подберём тариф под объём.

Как обрабатываются длинные файлы и где взять статус задачи?

Длинные записи идут через асинхронный Polling API: do_transcribe возвращает task_id, готовность вы опрашиваете через task_status, результат забираете через download_as_file (SRT/VTT/CSV/XLSX). Для реального времени — потоковый WebSocket wss://: транскрипт приходит стримом по мере речи.

Есть ли потоковое распознавание в реальном времени?

Да, WebSocket (wss://) для голосового ввода, live-субтитров и ботов; стриминг доступен уже на Стандартном тарифе, гайд — в документации.

В каких форматах можно выгрузить результат?

JSON с текстом, спикерами и пословными тайм-кодами по API, а также выгрузка в SRT, VTT, CSV и XLSX через download_as_file. DOCX по API не отдаём.

Сколько стоит распознавание и как списываются деньги?

От 0,29 ₽/мин (17,4 ₽/час), pay-as-you-go без подписки. Баланс не сгорает, секунды округляются вниз; 1000 минут ≈ 290 ₽. Полные тарифы — на /tarify/.

Можно ли быстро проверить распознавание без кода?

Да: чтобы оценить качество перед интеграцией, перешлите аудио или голосовое Telegram-боту @VoicePalatineBot (https://t.me/VoicePalatineBot) — он вернёт текст со спикерами и тайм-кодами на тех же моделях. Для боевого внедрения используйте API.