Как Fusara.ai добавила в свой редактор голосовой ввод и обогащение промпта

Как Fusara.ai добавила в свой редактор голосовой ввод и обогащение промпта

О чём эта история

Fusara.ai решила упростить взаимодействие пользователей с интерфейсом и ускорить процесс получения контента. Мы предложили внедрить AI-помощника с голосовым вводом, который преобразует простой промпт в наиболее подходящий для качественной генерации: теперь пользователи могут просто проговаривать свои идеи, а система автоматически преобразует речь в точный, структурированный промпт с рекомендуемыми параметрами для модели. Для этого были внедрены наша LLM (Large language model – большая языковая модель, например ChatGPT) модель, обогащающая пользовательский промпт более развернутым и подробным описанием, используя актуальные техники промптинга для получения наиболее качественных результатов генерации; а также стандартный Palatine Speech API для распознавания голосового ввода. Внедрение заняло один день, после чего аналитики Fusara.ai начали собирать метрики эффективности, о результатах которых ниже.

О клиенте

Fusara.ai – это платформа для генерации визуального контента: функциональный и интуитивный интерфейс, единый доступ к передовым моделям генерации изображений и других, позволяющая работать совместно с командой в одном пространстве.

Задачи и цели проекта

Команда Fusara.ai хотела ускорить и упростить процесс генерации контента для пользователя и увеличить удержание клиентов. Главным требованием стало уменьшение времени, которое пользователь тратит на продумывание и описание промптов и дополнительную настройку моделей.

Наше решение

Мы предложили использовать облачное решение с нашим специально разработанным LLM-aгентом для преобразования пользовательского промпта в более эффективный формат и Palatine Speech API для распознавания речи. Fusara.ai подключили его через простой REST-интерфейс, добавив виджет с AI-помощником. Теперь пользовательский путь выглядит так: пользователь описывает AI-помощнику, что он хочетсгенерировать и в случае голосового ввода, запрос транскрибируется. Далее клиент получает готовый, структурированный промпт с рекомендуемыми параметрами для модели генерации.

Как мы проверяли эффект

Было запущено A/B-тестирование до внедрения AI-помощника и после, а оценивали по следующим параметрам:

  • Время от начала ввода до получения результата;
  • Доля успешных генераций (отсутствие возвращения к полю ввода промпта);
  • Количеству правок пользователя по расстоянию Левенштейна.

А также отдельно собирали метрики для Palatine Speech:

  • Точность транскрибации – WER (Word error rate, то есть доля слов с ошибкой);
  • Скорость транскрибации;

Получили следующие оценки:

  • Время до результата сократилось в среднем на 15 секунд (На генерацию изображения уходило порядка 60 секунд, а после внедрения время уменьшилось до 45 секунд);
  • Доля успешных генераций выросла на 12%;
  • Количество правок пользователя в среднем сократилось на 16 единиц;
  • WER составил 4%;

Результаты

  • Пользователи стали чаще экспериментировать с промптами и количество использования генераций на аккаунт выросло на 7%;
  • Удержание новых пользователей на первой сессии выросло на 16%;

Финансовый эффект и ROI

Интеграция не потребовала дополнительных затрат кроме стоимости использования нашего API и добавления логики AI-помощника в продукт.

В первый месяц внедрение голосового ввода дало прирост конверсии в платящие аккаунты на 4%.

Мнение

dmitry_salatov_fusara_114456969b.jpgДмитрий Салатов Основатель Fusara.ai

«Мы стремимся сделать Fusara.ai максимально интуитивной – чтобы идея превращалась в изображение максимально бесшовно. AI-помощник стал логичным шагом: теперь можно просто описать голосом, что ты представляешь в голове, а агент сразу предложит готовый промпт. Интеграция с Palatine Speech прошла за пару часов, а эффект от внедрения совпал с нашими ожиданиями. – Основатель Fusara.ai»