Привет, товарищи статистики!
Набросок по одному из способов останавливать тест заранее.
Если вы читали
пост по подглядыванию в тест, то могли увидеть/предположить, что p-value при верности нулевой гипотезы как будто редко когда последовательно [0.04, 0.039 ... ] находится в рамках уровня значимости (в примере альфа=0.05). И все же такое случается и мы как будто этим можем воспользоваться для предварительной остановки теста.
То есть вместо правила "вижу значимость - останавливаю тест", которое давало больше ошибок 1-го рода, чем уровень значимости, использовать иное правило "вижу стат. значимую последовательность значимых p-value - останавливаю тест", где как будто ошибка 1-го рода на все семейство тестов будет на уровне альфа, а мы при этом сможем останавливать тест раньше времени, если повезет.
Но как понять, какая последовательность p-value будет значима <= alpha? Очевидно, нам нужно распределение, которое отразит частоту p-value подряд при верности нулевой гипотезы.
Вообще, первым делом стоит поискать, а нет ли такого распределения с соответствующей формулой, которое это могло бы описать? Ведь прелесть нашего положения в том, что таких распределений случайных величин предшественники-статистики вывели много (собственно, и тема поста не нова, новое вообще сложно придумать нынче, только переоткрыть старое). В начале-то я думал над геометрическим распределением, переиначивая под нашу задачу: вероятность конкретного кол-ва стат. значимых p-value (успехов) до наступление нестат.значимого (неуспехов): оно имеет вид экспоненциального распределения, то есть чаще всего 1, реже 2, еще реже 3 значения подряд и пр. - то, чего мы и ожидаем.
Проблема только в требований к получению такой случайной величины: все-таки каждое следующее p-value зависимо от своего предыдущего значения, а геометрическое распределение хочет независимые испытания. Поэтому, к сожалению (или я плохо искал, что вероятно), готового варианта не нашлось.
Но такое распределение помогло построить еще один результат работы предтечи: компуктер. А точнее симуляция. Есть, правда, одно но: вычисления были ОЧЕНЬ долгие, а потому есть сомнения в состоятельности распределения (в комментарии); но и пересчитывать сил нет. Что получено, то получено; критическое значение при том же уровне значимости на графике >= 13.
Запускаем новую симуляцию из серии тестов. В ней отрабатывало правило "вижу 13 и более последовательных p-value - останавливаю тест". Итого, были ложноположительные прокрасы при этом правиле + ложноположительные прокрасы в конце теста. На все семейство тестов - в рамках уровня значимости (1.5% в среднем приходилось на правло, 3.5% на исход в конце). Клево? Не совсем. Есть один момент, - помимо сомнений в репрезентативности распределения, - в симуляции не как в жизни: данные для групп поступали по одному за период, одновременно. А в жизни же все равно есть неравномерность в получении данных - допускаю, что она может в целом рушить такую сходимость p-value для вообще какой-то вменяемой проверки, если только эффект не ярковыраженный, что тоже явление нечастое.
Тут-то и начинается работа напильником по доработке метода (вообще любого), когда проявляются такие тонкости с необходимостью лезть в исторические данные. Доработка может стоит уйму времени с сомнительным результатом. С другой стороны это и не подсчет очередного AB
с сомнительным бизнес-результатом, а как раз уже повод для исследования. Пока думаю, продолжать или нет.
P.S. Обычным и даже обязательным является и проверка мощности, когда верна HA, но расчеты пока меня позамучили)