Кейс16 июля 2025 г.

Как мы внедрили голосовую диктовку и LLM-агента в радиологии

О чем эта история

AIDiagnostic подключила Palatine Speech к своему веб-вьюверу и развернула решение локально в десятках своих клиник-клиентов. Врачи диктуют то, что видят, а LLM-агент формирует черновик заключения; врач быстро его правит, подписывает и переходит к следующим задачам. Текст автоматически попадает в РИС (радиологическая информационная система) и в DICOM SR (structured report, формат структурированного отчета по стандарту DICOM).

Итог: медианное время финализации сократилось на 16% для КТ, на 14% для МРТ и на 19% для рентгена; в целом по всей сети клиник вышло минус 18% временных затрат. Правок стало меньше на 20%, а точность распознавания речи на медицинском домене оказалась WER 6,7%.

Для врача это означает 40-70 минут освобожденного времени за смену, а для клиники быстрый ROI порядка 3,2-4,8 раза и окупаемость менее месяца при on-prem развертывании с полным соблюдением информационной безопасности без вывода персональных данных за периметр клиники.

О клиенте

AIDiagnostic – российская платформа ИИ‑ассистента для радиологии с собственным веб‑вьювером и интеграциями с PACS (архив медицинских изображений) и РИС, которая подключена к десяткам государственных и частных клиник России. Платформа ежедневно выполняет тысячи автоматических исследований, помогая врачам быстрее видеть и фиксировать патологии на КТ, МРТ и рентген снимках, а также формировать структурированные протоколы заключений радиолога.

Через интеграцию с AIDiagnostic модули голосовой диктовки и стенографии Palatine Speech развернуты в десятках клиниках и отделениях в РФ.

Задачи и цели проекта

В подключенных к AIDiagnostic клиниках непрерывно высокий объем сложных исследований: много мультисрезовых КТ и длинных МРТ‑протоколов. На ручном наборе текста терялись минуты работы радиологов: врач отвлекается от изображений, печатает, возвращается к снимкам, снова печатает. В итоге важно сократить время подготовки заключений, сохранить их точность и упростить формирование отчетов через голосовую диктовку и шаблоны. Главной целью было не ломать привычные процессы и оставить интерфейс понятным для врачей. Главной целью было не ломать привычные процессы и оставить интерфейс понятным для врачей.

Наше решение

Мы развернули on‑premise версию Palatine Speech полностью в локальном режиме, без вывода каких-либо данных за сетевой периметр каждой клиники, а команда AIDiagnostic добавила в интерфейс кнопку диктовки, подключая наш сервис к своей системе. Далее врачи проговаривали наблюдения обычной речью: система определяла границы фраз с помощью VAD (voice activity detection), автоматически выставляла пунктуацию и подставляла значения в шаблоны (формулировки заключения, локализация, размеры). Готовый текст возвращался в РИС и в виде DICOM SR (документ структурированного отчета).

Отдельно мы разработали LLM‑агента: врач наговаривает всё, что видит во время анализа, а агент собирает из этого черновик структурированного заключения (итоговое заключение и ключевые поля). Далее врач проверяет и при необходимости правит черновик до целевого формата и удаляет лишнее, при этом полный контроль, конечно же, оставался у специалиста.

Как мы измеряли эффективность решения и точность

Чтобы получить надежные данные об эффективности внедрения такого решения мы сравнили 4 недели «до» и 4 недели «после» на агрегированной выборке в 1980 исследований из подключенной пилотной клиники.

M1: медианное время финализации (от открытия до подписания в РИС).
M2: доля протоколов, ушедших на правки/дополнения.
M3: качество распознавания – WER (word error rate, доля слов с ошибкой) на 200 валидационных протоколах.

Итог внедрения – врачи меньше печатали и чаще работали по шаблону, главным здесь было отсутствие потери качества итоговых заключений.

КТ: медиана 18,2 → 15,2 мин (-16%);
МРТ: медиана 16,0 → 13,8 мин (-14%);
Рентген (CXR): 3,2 → 2,6 мин (-19%);
В целом по клиникам сети: -18% к времени финализации протоколов;
WER: 6,7% (для русскоязычной радиологии с доменными словарями).

Для врача это крайне ощутимо: в сумме освобождается порядка 40–70 минут на смену (зависит от модальностей и длины протоколов). В результате уменьшая рутину и правки, давая возможность уделять больше внимания сложным случаям и пациентам.

Финансовый эффект и ROI

При упрощенном способе оценки в типовом отделении:

6 рабочих мест * 50 минут/день * 22 рабочих дня = 110 часов в месяц

При усредненной стоимости часа врача 2 800-3 800 руб. получаем эквивалент около 308 000-418 000 рублей в месяц на клинику.

Даже при консервативных издержках на лицензию и инфраструктуру это дало ROI равным порядка 3,2-4,8 раза с окупаемостью менее одного месяца.

Если пересчитать эффект на десятках клиник, то это около 31 130 часов высвобожденного времени в месяц и ~87-118 млн руб./мес. эквивалента в деньгах.

Мнение

«При реализации решения у нас было три приоритета: безопасность данных, минимум изменений для врача и масштабируемость с высокой точностью на медицинском домене. Palatine Speech работает локально и точно. Мы встроили диктовку в наш вьювер, а разработанный LLM‑агент собирает черновик заключения – врач как и в анализе снимков остается главным и быстро доводит текст до финального заключения. В итоге протоколы закрываются быстрее, правок меньше, а поддержка выдержала развертывание в десятках клиниках без сбоев. »