Привет, товарищи статистики!
Пониманием процедуру последовательного тестирование mSPRT в 5 частях, часть-1
Разговор Димой, который ведет
канал (подписывайтесь, ставьте лайки, так, что там еще по сценарию), а также его
посты, смотивировали написать цикл статей про mSRPT. Картинки размещу в комментариях, хотя по сути они не нужны.
Итак, последовательное тестирование (Sequential Testing) это процедура проверки гипотезы по мере накоплений данных, в наших реалиях - во время проведения теста до его установленной даты окончания. Основная цель - ускорение процесса тестирования гипотезы, но так, чтобы ложноложительных прокрасов было не более заданного уровня значимости, а не так, как это может при
наивном подглядывании. Одной из таких процедур, для пущей вводной, можно считать как раз проверку, например, последовательности p-value, о котором был
прошлый пост.
Но есть методы предтеч, которые более красивы, продвинутее и вообще. Один из таких это mSPRT, о нем и будем говорить, но прежде, нам нужно забазироваться, вспомнив:
- Шансы
- Отношение шансов
- Bayesian Factor
- Likelihood (Правдоподобие).
- Likelihood Ratio
- SPRT
- еще элементы из байесовской статистики (но уже походу mSRPT)
Итак, начнем.
Шанс:
Всю свою жизнь живу в Петербурге, каждый год СМИ твердят о том, что вот уж это лето будем жарким. Но память о "былых летах" за период лет в 10 дает примерно такой расклад:
- 3 лета были жаркими
- 7 были холодными
3 к 7, что и это будет жарким. Это и есть шансы, в данном случае жаркого лета к холодному.
Давайте стандартизируем через минимальное значение из этих двух, то есть через 3. Было "3 к 7", а стало "3/3 к 7/3"
-> 1 к 2.5 - так ведь привычнее, да? Все эти "1 к 100" вот про тоже самое.
1 к 2.5 -> на каждое жаркое лето приходится в среднем по 2.5 холодных, раскладывается это так [жаркое, холодное, холодное, жаркое, холодное, холодное, холодное, ...] и так в бесконечность на базе текущих данных.
Отношение шансов
Где Петербург, там и Венеция, - подозреваю, что в тамошнем городе шансы жаркого лета 9:1 или 1:011
Поделим шансы Венеции на шансы Питеры: 9/1 / 3/7 = 21 -> у Венеции в 21 раз больше шансов лета здорового человека. Эх, Италия...
Bayesian Factor
1. Естественно, какое-то событие может, - мое любимое слово, -
перевзвесить гипотезу о жарком лете. Допустим погода в мае, а именно жаркий май.
P(Ж.Лето|Ж.Май)=P(Ж.Май|Ж.Лето)*P(Ж.Лето) / P(Ж.Май) - допустим, перезвесили и получили постериор.
2. Теперь можно подсчитать соотношение постериора с приором (вероятностью ДО перевзвешивания) с аналоличной интерпретацией, как в отношении шансов:
P(Ж.Лето|Ж.Май) / P(Ж.Лето) - допустим = 3. Это значение можно интерпретировать как прирост информации в виду новых данных, а также "усиление" нашей изначальной гипотезы.
3. Но в A/B мы оприруем H0 и HA, в нашем примере HA - это холодное лето, P(Х.Лето):
P(Х.Лето|Ж.Май)=P(Ж.Май|Х.Лето)*P(Х.Лето) / P(Ж.Май)
Тогда отношение двух постериоров это:
P(Ж.Май|Ж.Лето)*P(Ж.Лето) / P(Ж.Май)
/
P(Ж.Май|Х.Лето)*P(Х.Лето) / P(Ж.Май)
По правилу деления у нас вторая дробь переворачивается и P(Ж.Май) сокращается.
P(Ж.Май|Ж.Лето)*P(Ж.Лето) / P(Ж.Май|Х.Лето)*P(Х.Лето) = K
Готово: мы подсчитали соотношение, а точнее коэффициент K - "поддержку" постериорной гипотезы жаркого лета против гипотезы холодного лета с учетом данных. Чем K больше, тем кратно больше поддержка гипотеза о жарком лете (в общем виде - о гипотезе в числителе).
Статистики Kass и Raftery предлагают так интерпретировать K при сравнении двух гипотез:
от 1 до 3.2 - "не стоит даже упоминания"
3.2 - 10 -> "что-то значимое"
10 - 100 -> "сильное доказательство" (в пользу гипотезы в числителе)
>100 -> "железобетонно" (числитель лучше знаменателя)
P.S. Судя по снегу в мае, это лето снова будет холодным. П - Питер, чтоб его.