💣 Как правильно реагировать на инциденты (основано на реальных событиях)
Пару дней назад я просматривала оценки в наших тикетах и увидела аж несколько двоек (у нас трёхбалльная шкала, рассказывала о ней
здесь). Подумала, как
много! Что же там такое случилось?
А у нас тогда произошел инцидент. И из десятков обращений по нему мы не получили ни одного кола, да и двоек было немного. Как так вышло? Давайте разберём по шагам, как правильно реагировать на инцидент, чтобы репутация бизнеса не пострадала.
1️⃣Будьте всегда на стрёме (автоматика может и не сработать)
Если у вас не сработал какой-то автоматический алерт или случился инцидент, на который он не настроен, на этом этапе надо почувствовать, что что-то не так. Фишка в том, что все штатные ситуации похожи друг на друга, а каждая внештатная ситуация внештатная по-своему. Не всегда можно сделать четкие инструкции или написать алерты так, чтобы они определяли все-все внештатные ситуации — надо подключать людей и мозг, а иногда просто... чувствовать. Говорят же, что интуиция — это бессознательный опыт?
Мы упустили момент, где закончилась обычная повышенная нагрузка, которую мы испытываем каждый понедельник, и началась нагрузка, вызванная сбоем. Поэтому мы на самом деле не очень сработали в этот раз — заметили сбой только спустя час, а для сервиса, который предоставляет данные в реальном времени, это очень много; по сути — час простоя. Но это был тот случай, когда причина сбоя встретилась нам впервые. Расслабляться нельзя никогда.
2️⃣Соберите логи. Тут важно то, что это сделать быстро. Нет, не так. БЫСТРО.
Правда в том, что делать надо это было, скорее всего, ещё час назад, и вы по умолчанию опоздали. А сейчас надо уже чинить, и у вас начинается паника.
На этом этапе надо построить такую культуру, где всем будет важно восстановить работу сервиса, а не выяснять отношения: кто виноват, кто что должен был заметить и так далее. Оставьте это для постмортема. Сейчас все усилия должны быть направлены на спасение ситуации, а голова — оставаться холодной, чтобы быстро и четко провести анализ.
Как было у нас: мы заметили неладное, я посмотрела не тот, есессно, лог, скинула в чат для инцидентов и побежала к техдиру в кабинет лично убедиться в том, что сообщение было прочитано.
У меня уже давно отсутствует стыд показаться глупой: что я провела недостаточный анализ, что посмотрела не тот лог и всё такое. Окей, потом разберемся, что, где и как я не то посмотрела. Починить можно? К ошибкам тоже можно относиться продуктово!
Техдир по тексту ошибки и другим данным понял, что она не относится к текущей проблеме, и сказал, где и что надо посмотреть, что я и сделала. Скорость важна!
💡 Лайфхак: сделайте для супер-мега-критичных инцидентов отдельный чат и добавьте туда всех причастных: тех, кто может о них сообщать, и тех, кто может их исправить. Скажите всем, что уведомления в этом чате отключать нельзя и реагировать на них надо мгновенно. У нас такой чат есть, и мы пишем туда, когда решить вопрос надо так быстро, что даже создавать задачу в таск-трекере некогда: массовая ошибка на сайте, он лег или не идут проверки. Собирайте и туда логи для анализа, но не увлекайтесь. Если вы будете в них копаться полчаса, ситуация станет только хуже.
3️⃣Убедитесь, что ваши сообщения увидели и начали заниматься проблемой.
Да-да, это отдельный этап и отдельный скилл. Не так сложно заметить проблему, посмотреть логи и как-то об этом сообщить. Даже скинуть в чат. Куда сложнее убедиться, что тебя услышали, что проблему решают или хотя бы анализируют, в чем проблема.
Люди часто стесняются кого-то потеребить, особенно программистов; боятся, что они что-то не так посмотрели, и им за это надают по шапке. Легко сказать: «Постройте культуру, где можно ошибаться», особенно в таких моментах, но на самом деле это действительно нужно делать. А ещё пропишите инструкции по анализу разного рода ошибок и учите людей сохранять холодную голову в любой ситуации.
Продолжение в
следующем посте⬇️
Продакт тётя Юля — о процессах в айти