💣 Как правильно реагировать на инциденты (основано на реальных событиях)
Начало в
предыдущем посте⬆️
4️⃣Добейтесь информации о том, что случилось и что предпринимается для починки.
Бывает так, что проблему нашли и сразу начали исправлять, а что она найдена, не сообщили. От лица пользователя, который попадал в такую ситуацию, говорю: «Мы проверяем, в чем дело» и «Мы нашли проблему, исправляем ее» — это два кардинально разных статуса.
Выясните, на чьей стороне проблема: у вас или у партнёров. Если на вашей, то хорошо, исправляйте. Если нет, то хуже: надо будет с ними связаться и ждать исправления с их стороны.
Однако даже если в проблеме виноваты не вы, попробуйте сделать что-нибудь, чтобы решить её уже сейчас. Как было у нас: оказалось, что мы упёрлись в дневной лимит от партнерского API, и сразу связались с ними, чтобы они нам его увеличили. Но параллельно пустили проверки по обходному алгоритму. И хотя лимит нам увеличили в тот же день, мы справились ещё быстрее и разгребли всю накопившуюся очередь задолго до этого.
5️⃣Дайте апдейт пользователям. Напишите, что вы делаете для исправления проблемы.
Не бойтесь поспамить в тикет. Некоторые диалоги у нас выглядят как сообщение пользователя и 2-3 сообщения админов. Это нормально! Действуйте проактивно и не ждите, пока люди начнут беситься.
В нашем случае
монолог диалог выглядел как-то так:
— Сообщение от пользователя о том, что его проекты долго проверяются.
— Сообщение от админа (здесь и далее) о том, что мы повысили приоритет его проверок.
— Обнаружили сбой. Он связан с... Пока лимит не увеличен, мы делаем следующее... Альтернативный алгоритм медленнее, но скоро данные будут получены. Извините за неполадки.
— Ваши проекты проверены. Если ситуация повторится, обращайтесь.
6️⃣Проведите анализ ситуации, когда всё закончилось.
Когда всё успокоилось, проведите анализ того, что случилось и почему, и подумайте, как не допустить такого в дальнейшем. Можно выписать по минутам, когда случился сбой, когда его заметили и так далее, но мы пока такое не практикуем.
Главное — не превращать всё это в поиск виноватых и публичные порки. Помните, что мы стараемся создать такую атмосферу, где люди не будут бояться сообщать об инцидентах? А они у вас будут ещё не раз и не два.
Даже с не самым лучшим временем первичного реагирования и несколькими десятками обращений мы получили всего пару средних оценок, и, я считаю, достойно разобрались с ситуацией и отработали негатив. Хотя, конечно, хотелось бы поменьше поводов демонстрировать эти навыки
🙂
Продакт тётя Юля — о процессах в айти