View in Telegram
Привет, товарищи статистики! Пониманием процедуру последовательного тестирование mSPRT в 5 частях, часть-1 Разговор Димой, который ведет канал (подписывайтесь, ставьте лайки, так, что там еще по сценарию), а также его посты, смотивировали написать цикл статей про mSRPT. Картинки размещу в комментариях, хотя по сути они не нужны. Итак, последовательное тестирование (Sequential Testing) это процедура проверки гипотезы по мере накоплений данных, в наших реалиях - во время проведения теста до его установленной даты окончания. Основная цель - ускорение процесса тестирования гипотезы, но так, чтобы ложноложительных прокрасов было не более заданного уровня значимости, а не так, как это может при наивном подглядывании. Одной из таких процедур, для пущей вводной, можно считать как раз проверку, например, последовательности p-value, о котором был прошлый пост. Но есть методы предтеч, которые более красивы, продвинутее и вообще. Один из таких это mSPRT, о нем и будем говорить, но прежде, нам нужно забазироваться, вспомнив: - Шансы - Отношение шансов - Bayesian Factor - Likelihood (Правдоподобие). - Likelihood Ratio - SPRT - еще элементы из байесовской статистики (но уже походу mSRPT) Итак, начнем. Шанс: Всю свою жизнь живу в Петербурге, каждый год СМИ твердят о том, что вот уж это лето будем жарким. Но память о "былых летах" за период лет в 10 дает примерно такой расклад: - 3 лета были жаркими - 7 были холодными 3 к 7, что и это будет жарким. Это и есть шансы, в данном случае жаркого лета к холодному. Давайте стандартизируем через минимальное значение из этих двух, то есть через 3. Было "3 к 7", а стало "3/3 к 7/3" -> 1 к 2.5 - так ведь привычнее, да? Все эти "1 к 100" вот про тоже самое. 1 к 2.5 -> на каждое жаркое лето приходится в среднем по 2.5 холодных, раскладывается это так [жаркое, холодное, холодное, жаркое, холодное, холодное, холодное, ...] и так в бесконечность на базе текущих данных. Отношение шансов Где Петербург, там и Венеция, - подозреваю, что в тамошнем городе шансы жаркого лета 9:1 или 1:011 Поделим шансы Венеции на шансы Питеры: 9/1 / 3/7 = 21 -> у Венеции в 21 раз больше шансов лета здорового человека. Эх, Италия... Bayesian Factor 1. Естественно, какое-то событие может, - мое любимое слово, - перевзвесить гипотезу о жарком лете. Допустим погода в мае, а именно жаркий май. P(Ж.Лето|Ж.Май)=P(Ж.Май|Ж.Лето)*P(Ж.Лето) / P(Ж.Май) - допустим, перезвесили и получили постериор. 2. Теперь можно подсчитать соотношение постериора с приором (вероятностью ДО перевзвешивания) с аналоличной интерпретацией, как в отношении шансов: P(Ж.Лето|Ж.Май) / P(Ж.Лето) - допустим = 3. Это значение можно интерпретировать как прирост информации в виду новых данных, а также "усиление" нашей изначальной гипотезы. 3. Но в A/B мы оприруем H0 и HA, в нашем примере HA - это холодное лето, P(Х.Лето): P(Х.Лето|Ж.Май)=P(Ж.Май|Х.Лето)*P(Х.Лето) / P(Ж.Май) Тогда отношение двух постериоров это: P(Ж.Май|Ж.Лето)*P(Ж.Лето) / P(Ж.Май) / P(Ж.Май|Х.Лето)*P(Х.Лето) / P(Ж.Май) По правилу деления у нас вторая дробь переворачивается и P(Ж.Май) сокращается. P(Ж.Май|Ж.Лето)*P(Ж.Лето) / P(Ж.Май|Х.Лето)*P(Х.Лето) = K Готово: мы подсчитали соотношение, а точнее коэффициент K - "поддержку" постериорной гипотезы жаркого лета против гипотезы холодного лета с учетом данных. Чем K больше, тем кратно больше поддержка гипотеза о жарком лете (в общем виде - о гипотезе в числителе). Статистики Kass и Raftery предлагают так интерпретировать K при сравнении двух гипотез: от 1 до 3.2 - "не стоит даже упоминания" 3.2 - 10 -> "что-то значимое" 10 - 100 -> "сильное доказательство" (в пользу гипотезы в числителе) >100 -> "железобетонно" (числитель лучше знаменателя) P.S. Судя по снегу в мае, это лето снова будет холодным. П - Питер, чтоб его.
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily