View in Telegram
Ранее я писал, что всегда нужно проверять репрезентативность выборки. Вы собрали более 200 реакций на тот пост, поэтому сегодня мы поговорим - а как, собственно, это проверять. Есть несколько способов. Рассмотрим на примере посещений сайта - будем выяснять, почему упала конверсия CR1. 0. Просто из соображений адекватности Если вы невооруженным взглядом видите, что большинство посетителей за последнюю неделю - девушки 20-25 лет из Казахстана, то очевидно неверным будет вывод, что лендинг плохо конвертит на всех посетителей сайта. Ваша выборка сильно смещена. 1. Сравнение описательных статистик Обычно ситуация не такая очевидная. И первое, что можно сделать - сравнить описательные статистики между текущей выборкой и генеральной совокупностью. Например, среднее, медиану, моду, квантили и т.д. Получить точное значение для генеральной совокупности вы, конечно, не сможете (т.к. для этого нужно загнать на ваш сайт все население страны). Однако оценить его с неким доверительным интервалом на основании исторических данных, которые вы считаете достаточно репрезентативными - можно. И если посчитанные статистики попадают в эти доверительные интервалы - значит выборка репрезентативна. Однако тут не забываем про квартет Энскомба. Иногда описательные статистики могут быть одинаковыми, а реальные выборки ох как отличаться. 2. Расчет размера выборки Вы можете задать уровень доверия (обычно 95%) и на основании этого посчитать - какой выборки вам достаточно, чтобы сделать вывод. Такая выборка все еще может быть нерепрезентативна. Но если она еще и слишком маленькая, то это лишний аргумент не делать выводы на ее основе. 3. Оценка стратификации Разделите свою выборку на страты (например, "пол", "возраст", "гео", "устройства" и т.д.). Оцените долю каждой страты в выборке. Потом сравните с долей этих страт в генеральной совокупности (опять же, либо как описано в п. 1 - через доверительные интервалы, либо из каких-то достоверных открытых исследований). Если доли примерно совпадают - есть надежда, что ваша выборка репрезентативна. 4. Статистические тесты Можно с помощью какого-нибудь Хи-квадрта сравнить распределение выборки и генеральной совокупности. Условно, если вы знаете, что к вам должно было зайти 20% от 20 до 25 лет, 25% от 25 до 30 лет и так далее (из какого-то открытого исследования), а также вам известно фактическая статистика заходов, вы можете это загрузить в хи-квадрат и посмотреть результат. Кажется, что нужно раскрывать эту тему дальше! Давайте наберем 200 разных реакций на этот пост и я расскажу про проявление квартета Энскомба в реальной жизни + проведу конкретные расчеты, описанные выше 🤘
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily