Speech-to-Text API – распознавание речи для разработчиков
OpenAI-совместимый Speech-to-Text API для интеграции в ваш продукт: распознавание речи с WER 7,1%, пословные таймкоды, диаризация спикеров, ~100 языков. Синхронный запрос, асинхронный Polling API и потоковый WebSocket. Обработка в РФ по 152-ФЗ.
- от 0,29 ₽/мин
- WER 7,1% (WAcc 92,9%)
- ~100 языков
- Пословные таймкоды
- OpenAI-совместимый
- 152-ФЗ · 4 ЦОД Tier III
- 1000 минут на тест по запросу
Speech-to-Text API Palatine Speech – это программный интерфейс распознавания речи, который вы встраиваете в свой продукт: CRM, колл-центр, голосовой ввод или медиаплатформу. Работает он как REST/WebSocket API с ключом, OpenAI-совместимым endpoint и JSON-ответом; онлайн-аплоадера «перетащи файл» здесь нет. Русскую речь движок распознаёт с WER 7,10% (WAcc 92,9%), возвращает пословные таймкоды и диаризацию спикеров, понимает ~100 языков, а стоит это от 0,29 ₽/мин. Дальше – код, формат JSON-ответа, бенчмарк и сравнение с вендорами.
Подключение за 5 минут: три способа интеграции
Вызвать API можно тремя способами, под разные сценарии: синхронный HTTP-запрос для коротких файлов, асинхронный Polling API для длинных записей и потоковый WebSocket для реального времени. Ключ при этом один на все три.
OpenAI SDK – замена base_url
Palatine API совместим с OpenAI на уровне Speech-to-Text. Чтобы подключить OpenAI SDK к Palatine, вы меняете base_url на https://api.palatine.ru/api/v1 – на этом миграция с Whisper API и заканчивается, переписывать код не нужно. Если ваше rest api распознавание речи уже крутится на инфраструктуре OpenAI, команда правит один параметр в SDK, и всё работает без рефакторинга. Openai совместимый api распознавания речи доступен сразу после выдачи ключа, отдельной интеграции под Palatine не требуется.
cURL-запрос и JSON-ответ с пословными таймкодами
Endpoint POST /audio/transcriptions принимает аудио и видео в 23+ форматах. В JSON-ответе лежат пословные таймкоды: для каждого слова возвращаются start и end, а сегменты помечены спикерами. Получается, что таймкоды и спикеры приходят одним объектом, и для речевой аналитики или расшифровки звонков этого достаточно – видно, кто и когда говорил. Полную схему полей мы держим в документации.
Асинхронный Polling API для файлов 10+ часов
Длинные файлы, от 10+ часов, обслуживает асинхронный Polling API. Метод do_transcribe возвращает task_id, статус вы опрашиваете через task_status, готовый результат забираете методом download_as_file, а финальное состояние – task_done. На практике контакт-центр отправляет 10-часовую запись, получает task_id и позже выгружает результат в SRT или CSV, не держа открытое соединение. Готовность задачи вы отслеживаете опросом task_status, а файл забираете, когда статус стал финальным.
Потоковый WebSocket wss://
Потоковое распознавание речи api идёт через WebSocket wss://: так вы получаете транскрибацию в реальном времени – для голосового ввода, live-субтитров и суфлёра. Голосовой ассистент стримит аудио по WebSocket и видит live-субтитры по мере речи. Статус потоковой задачи приходит тем же стримом, по мере распознавания.
Выгрузка SRT/VTT/CSV/XLSX
Кроме JSON, результат можно выгрузить в SRT, VTT, CSV и XLSX через download_as_file – под субтитры, монтаж и табличный экспорт. DOCX по API мы не отдаём.
Возможности Speech-to-Text API
Одним распознаванием возможности не ограничены: в том же ключе доступны диаризация, мультиязычность и постобработка транскрипта LLM.
OpenAI-совместимость
Endpoint POST /audio/transcriptions и OpenAI SDK работают через ту же замену base_url, поэтому порог входа низкий: api на русском вы подключаете тем же кодом, что и оригинальный Whisper API. При миграции с whisper api модель вызова, схему запроса и парсинг ответа менять не нужно.
Диаризация и пословные таймкоды
Диаризация размечает до 5 спикеров за ≤ 0,30 ₽/мин, с VAD и устойчивостью к шуму. В JSON-ответе для каждого слова есть start и end, поэтому диаризация спикеров и пословные таймкоды складываются в один транскрипт, склеивать на своей стороне ничего не нужно.
100 языков, кастомные словари, точные числа
~100 языков с автоопределением, включая русский и языки СНГ, API распознаёт из коробки. На доменной лексике – терминах, брендах и именах – точность поднимают кастомные словари, а числа, счета и даты приходят цифрами, не прописью.
Тональность, саммари, Чат с LLM и MCP в том же API
Поверх транскрипта в том же API лежат анализ тональности, саммари из аудио, чат с LLM и MCP-коннектор для агентов. Пригодится, когда вы строите голосовых ассистентов или речевую аналитику и не хотите подключать отдельный LLM-провайдер.
Точность и скорость: открытый бенчмарк
Метрики мы публикуем вместе с методикой, без маркетингового «точность 98%».
WER 7,10% / WAcc 92,9% на 7 датасетах
На 7 датасетах модель Palatine даёт WER 7,10% и WAcc 92,9%. Whisper-large-v3 по WER слабее – 7,44% против 7,10%. ElevenLabs (6,88) и AssemblyAI (7,03) по WER точнее, но они дороже, медленнее и без обработки в РФ, так что наш выигрыш складывается из триады «скорость + цена + 152-ФЗ». На телефонии 8 кГц точность ~90%.
Скорость 1–2% длительности (~25 сек на 30 мин)
Само распознавание занимает 1–2% длительности файла: 30-минутную запись обрабатываем примерно за 25 секунд. SpeechKit на том же файле тратит около двух минут.
Сравнение с Yandex SpeechKit, SaluteSpeech и Whisper
В таблице выше Palatine сравнивается с вендорами по WER, цене, скорости, лимитам и обработке в РФ. Если коротко: по WER мы обгоняем Whisper-large-v3 (7,10% против 7,44%), по скорости отрыв кратный (~25 сек против ~2–10 мин на 30 мин). WER у SpeechKit и SaluteSpeech открыто не публикуется, поэтому в таблице стоит «н/д» вместо выдуманных процентов. Цены конкурентов взяты по открытым тарифам на 25.06.2026 и пересматриваются ежеквартально.
Наш Speech-to-Text API совместим с SDK OpenAI: чтобы перейти на Palatine, достаточно заменить base_url — переписывать интеграцию и логику не нужно, рабочий код остаётся прежним. В ответ приходит обычный JSON с пословными таймкодами и разметкой спикеров, поэтому встроить распознавание в продукт можно за один вечер.
Лимиты, форматы и rate limits
Входные форматы и длительность
Endpoint принимает 23+ входных формата (mp3, wav, m4a, ogg, mp4 и др.) и файлы длительностью 10+ часов. Длинные записи отправляйте через асинхронный Polling API; синхронный запрос для них не подходит.
Rate limits – в документации, без выдумок
Конкретные rate limits зависят от тарифа. Актуальные значения мы держим в документации и не дублируем на лендинге, чтобы не путать цифрами. Перед выводом на прод под нагрузку сверьте лимиты по доке.
Цены: pay-as-you-go от 0,29 ₽/мин
Модель → цена
Транскрибация стоит от 0,29 ₽/мин, то есть 17,4 ₽/час, по модели pay-as-you-go от 0,29 ₽. Вы платите за фактические минуты, баланс не сгорает, а секунды округляются вниз в пользу клиента. Диаризация обойдётся в ≤ 0,30 ₽/мин.
1000 бесплатных минут и правила биллинга
На старте тестовые минуты мы выделяем по запросу – их хватает, чтобы проверить формат ответа и качество до нагрузки. Для ориентира: 1000 минут ≈ 290 ₽. Подписки нет, оплата картой МИР, СБП или по счёту. Полные тарифы и правила биллинга собраны на /tarify/.
Безопасность: 152-ФЗ и обработка данных в России
4 ЦОД Tier III и TLS
Данные клиентов мы обрабатываем в 4 ЦОД уровня Tier III в РФ, отказоустойчивость – 99,982%. Обработка данных в РФ идёт по 152-ФЗ, передача – по TLS.
Не обучаем на ваших данных + on-premise
Palatine не обучает модели на данных клиентов и файлы не хранит. Для банков, медицины и госсектора есть on-premise тариф: он ставится локально (офлайн) в контуре заказчика, с дообучением модели под домен и кастомными словарями.
Как получить API-ключ и начать
3 шага
- Получите ключ. Зарегистрируйтесь или напишите нам; мы выдадим API-ключ, а тестовые минуты выделим по запросу.
- Замените
base_urlнаhttps://api.palatine.ru/api/v1в OpenAI SDK – или вызовитеPOST /audio/transcriptionsчерез cURL. - Заберите JSON с текстом, спикерами и пословными таймкодами либо выгрузите результат в SRT/VTT/CSV/XLSX.
Помощь с миграцией с OpenAI/ElevenLabs
На Корпоративном тарифе мы помогаем перенести интеграцию с OpenAI или ElevenLabs, подобрать тариф под объём и собрать кастомный словарь под вашу доменную лексику.
Ответы на вопросы
Не нашли ответ на свой вопрос? Напишите нам
Есть ли API для интеграции?
Да, есть OpenAI-совместимый API с транскрибацией и диаризацией. Документация доступна на docs.speech.palatine.ru.
Есть ли ограничения на размер и длительность?
В демо — файл до 300 МБ и до 30 минут. На платных тарифах ограничения снимаются, доступна пакетная обработка.
Что с безопасностью данных?
Серверы расположены в РФ, обработка соответствует 152-ФЗ. Данные передаются по TLS, мы не обучаем на них модели и не передаём третьим лицам.
Какие языки поддерживаются?
Поддерживаем около 100 языков, включая русский и языки СНГ. Язык можно указать вручную или определить автоматически.
Какая точность распознавания?
На чистом аудио точность около 92,9% (WER 7,10%). На телефонном канале 8 кГц — порядка 90%. Для шумных записей есть отдельная модель.
Чем Palatine отличается от OpenAI Whisper API?
Endpoint OpenAI-совместим: миграция = замена base_url на https://api.palatine.ru/api/v1, код не меняется. WER 7,10% против 7,44% у whisper-large-v3 (наш бенчмарк на 7 датасетах), оплата в рублях без зарубежной карты, обработка в 4 ЦОД РФ по 152-ФЗ и 1000 минут на тест по запросу.
Как мигрировать с OpenAI или ElevenLabs?
В SDK OpenAI замените base_url и ключ — переписывать код не нужно. Поможем с переносом на Корпоративном тарифе, соберём кастомный словарь под вашу лексику и подберём тариф под объём.
Как обрабатываются длинные файлы и где взять статус задачи?
Длинные записи идут через асинхронный Polling API: do_transcribe возвращает task_id, готовность вы опрашиваете через task_status, результат забираете через download_as_file (SRT/VTT/CSV/XLSX). Для реального времени — потоковый WebSocket wss://: транскрипт приходит стримом по мере речи.
Есть ли потоковое распознавание в реальном времени?
Да, WebSocket (wss://) для голосового ввода, live-субтитров и ботов; стриминг доступен уже на Стандартном тарифе, гайд — в документации.
В каких форматах можно выгрузить результат?
JSON с текстом, спикерами и пословными тайм-кодами по API, а также выгрузка в SRT, VTT, CSV и XLSX через download_as_file. DOCX по API не отдаём.
Сколько стоит распознавание и как списываются деньги?
От 0,29 ₽/мин (17,4 ₽/час), pay-as-you-go без подписки. Баланс не сгорает, секунды округляются вниз; 1000 минут ≈ 290 ₽. Полные тарифы — на /tarify/.
Можно ли быстро проверить распознавание без кода?
Да: чтобы оценить качество перед интеграцией, перешлите аудио или голосовое Telegram-боту @VoicePalatineBot (https://t.me/VoicePalatineBot) — он вернёт текст со спикерами и тайм-кодами на тех же моделях. Для боевого внедрения используйте API.