Теорема Байеса для будущего поста, ч.1
Помните, я говорил, что надо уметь отвечать за сказанное на собеседовании? Кандидаты среди порой любят говорить о том, что они любят математику. Чаще именно у стажеров/джунов я обычно уточняю, а какой твой самый любимый раздел. Если слышу, что мне говорят про теорвер, то мой следующий вопрос часто про то, чтобы мне концептуально объяснили, о чем формула Баейса. Без задачек про урны из шаров, просто - о чем эта теорема, чем она нам полезна, что именно делает. Для понимания этого, а также моего следующего поста давайте разбираться.
Как обычно, подведемся к теореме, чтобы было понимание, а не знание.
Доступим, у нас есть база кандидатов для стажировки: 4 человека.
- 2 знают Excel
- 1 знает SQL
- 1 знает и Excel и SQL
1)
Вероятность того, что случайно отберут человека со знанием Excel из всех = 3/4.
Запишем как P(Excel) = 3/4
Мы также знаем, чему равна вероятность знать SQL при условии знания Excel = 1/3.
P(SQL|Excel) = 1/3 (так как лишь 1 из 3 эксельщиков знает SQL)
Вероятность того, что знающий Excel еще знает и SQL равна = 3/4*1/3 =1/4.
P(Excel) * P(SQL|Excel) =
= P(Excel и SQL) = 1/4
2)
Вероятность того, что случайно отберут человека со знанием SQL из всех = 2/4.
P(SQL) = 1/2
Мы также знаем, чему равна вероятность знать Excel при условии знания SQL = 1/2.
P(Excel|SQL) = 1/2
Вероятность того, что знающий Excel еще знает и SQL равна = 1/2*1/2 =1/4.
P(SQL)*P(Excel|SQL) =
= P(SQL и Excel) = 1/4
3) Ага, то есть P(Excel и SQL) = P(SQL и Excel) = 1/4
! При этом обращу внимание P(SQL|Excel) НЕ равно P(Excel|SQL) !
А значит:
P(Excel) * P(SQL|Excel) = P(SQL)*P(Excel|SQL) - это уравнение (1.)
P(SQL|Excel) = P(SQL)*P(Excel|SQL) /P(Excel) - (2.) это и есть формула Баейса. То есть в логике такого вывода мы можем подсчитать вероятность того, что кандидат знает Excel при условии наличия факта, что он знает SQL (как вариант, поменяв местами, знание SQL при условнии знания Excel)
И че?..