О чём эта история
Fusara.ai решила упростить взаимодействие пользователей с интерфейсом и ускорить процесс получения контента. Мы предложили внедрить AI-помощника с голосовым вводом, который преобразует простой промпт в наиболее подходящий для качественной генерации: теперь пользователи могут просто проговаривать свои идеи, а система автоматически преобразует речь в точный, структурированный промпт с рекомендуемыми параметрами для модели. Для этого были внедрены наша LLM (Large language model – большая языковая модель, например ChatGPT) модель, обогащающая пользовательский промпт более развернутым и подробным описанием, используя актуальные техники промптинга для получения наиболее качественных результатов генерации; а также стандартный Palatine Speech API для распознавания голосового ввода. Внедрение заняло один день, после чего аналитики Fusara.ai начали собирать метрики эффективности, о результатах которых ниже.
О клиенте
Fusara.ai – это платформа для генерации визуального контента: функциональный и интуитивный интерфейс, единый доступ к передовым моделям генерации изображений и других, позволяющая работать совместно с командой в одном пространстве.
Задачи и цели проекта
Команда Fusara.ai хотела ускорить и упростить процесс генерации контента для пользователя и увеличить удержание клиентов. Главным требованием стало уменьшение времени, которое пользователь тратит на продумывание и описание промптов и дополнительную настройку моделей.
Наше решение
Мы предложили использовать облачное решение с нашим специально разработанным LLM-aгентом для преобразования пользовательского промпта в более эффективный формат и Palatine Speech API для распознавания речи. Fusara.ai подключили его через простой REST-интерфейс, добавив виджет с AI-помощником. Теперь пользовательский путь выглядит так: пользователь описывает AI-помощнику, что он хочетсгенерировать и в случае голосового ввода, запрос транскрибируется. Далее клиент получает готовый, структурированный промпт с рекомендуемыми параметрами для модели генерации.
Как мы проверяли эффект
Было запущено A/B-тестирование до внедрения AI-помощника и после, а оценивали по следующим параметрам:
- Время от начала ввода до получения результата;
- Доля успешных генераций (отсутствие возвращения к полю ввода промпта);
- Количеству правок пользователя по расстоянию Левенштейна.
А также отдельно собирали метрики для Palatine Speech:
- Точность транскрибации – WER (Word error rate, то есть доля слов с ошибкой);
- Скорость транскрибации;
Получили следующие оценки:
- Время до результата сократилось в среднем на 15 секунд (На генерацию изображения уходило порядка 60 секунд, а после внедрения время уменьшилось до 45 секунд);
- Доля успешных генераций выросла на 12%;
- Количество правок пользователя в среднем сократилось на 16 единиц;
- WER составил 4%;
Результаты
- Пользователи стали чаще экспериментировать с промптами и количество использования генераций на аккаунт выросло на 7%;
- Удержание новых пользователей на первой сессии выросло на 16%;
Финансовый эффект и ROI
Интеграция не потребовала дополнительных затрат кроме стоимости использования нашего API и добавления логики AI-помощника в продукт.
В первый месяц внедрение голосового ввода дало прирост конверсии в платящие аккаунты на 4%.
Мнение
«Мы стремимся сделать Fusara.ai максимально интуитивной – чтобы идея превращалась в изображение максимально бесшовно. AI-помощник стал логичным шагом: теперь можно просто описать голосом, что ты представляешь в голове, а агент сразу предложит готовый промпт. Интеграция с Palatine Speech прошла за пару часов, а эффект от внедрения совпал с нашими ожиданиями. – Основатель Fusara.ai»

