Смотреть в Telegram
вдруг осознал, что reinforcement learning — это ближайший родственник разностных уравнений. (кстати разностные уравнения — ближайшие родственники дифференциальных уравнений) RL policies — это всё, что у нас обычно в диффурах стоит в правой части. а если вы говорите про higher order RL-policies (Meta RL, HRL, Multi-Level Policies, L2L, RL-policies of RL-policies), то всё это как бы — про системы дифференциальных уравнений высшего порядка. Хотелось написать "Вот и всё." в конце. Нет, конечно. Не всё. Одно из главных отличий между RL и системой диффуров — RL сразу бросают в холодные пучины недифференцируемых поверхностей. RL — это скорее про системы стохастических дифференциальнных уравнений P.S. я выше писал, что человеческие эмоции — это просто RL-policies у нас, у кожаных мешков. Ну, вот, получилось, что эмоции — это просто производные разных порядков в системе кожаных стохастических дифференциальных уравнений.
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств