Как оценить AI-модель
Второй и последний пост про AI на этой неделе. Вот
здесь - первый про UX. Если хотите больше про AI в продукте - ставьте огонечки!
🔥
Есть несколько основных способов оценить, насколько хорошо работает AI модель:
1. Оценка человеком
2. Автоматическая оценка кодом
3. Фидбек от юзеров
Автоматическую оценку кодом пока опустим, фидбек от юзеров - вещь полезная, но перед тем, как катить на юзеров, нужно понять самим, не будет ли наш AI посылать куда подальше.
Итого - оценка человеком.
В общем подход здесь такой: нужно представить, что вы оцениваете эссе. Каждое из них уникально как и результаты модели, но при этом должны быть критерии оценки, чтобы а) можно было справедливо оценить б) делегировать потом оценку другим.
Шаги, которые нужно сделать, чтобы составить критерии для оценки, на иллюстрации. В идеале у вас должна появиться таблица, в которой будет -дцать вопросов формата да / нет, а также с оценкой от 1 до 5.
Поначалу с ее помощью тестит результат продакт, а дальше можно нанять тестировщиков.
Примеры вопросов для AI-ассистента Google, который помогает пользователям гугла в случае проблем. Пару покажу без спойлера,
остальные - под спойлером, чтобы вы могли подумать и раскрыть их для проверки.
"Ассистент систематически обращается к пользователю по имени" - да / нет
"Ассистент предоставил пользователю больше ценности за меньшее время, чем если бы пользователь сделал это сам" - оценка по шкале от 1 до 5
"Ассистент завершил задачу пользователя до конца" - да / нет
"Ассистент следил за выполнением задачи пользователя и уточнял её статус" - да / нет
"Ассистент предоставил пользователю качественные варианты" - оценка по шкале от 1 до 5
#PG_education