вдруг осознал, что reinforcement learning — это ближайший родственник
разностных уравнений.
(кстати разностные уравнения — ближайшие родственники дифференциальных уравнений)
RL policies — это всё, что у нас обычно в диффурах стоит в правой части.
а если вы говорите про higher order RL-policies (Meta RL, HRL, Multi-Level Policies, L2L, RL-policies of RL-policies), то всё это как бы — про системы дифференциальных уравнений высшего порядка.
Хотелось написать "Вот и всё." в конце.
Нет, конечно. Не всё.
Одно из главных отличий между RL и системой диффуров — RL сразу бросают в холодные пучины недифференцируемых поверхностей.
RL — это скорее про системы
стохастических дифференциальнных уравнений
P.S. я выше писал, что человеческие эмоции — это просто RL-policies у нас, у кожаных мешков. Ну, вот, получилось, что эмоции — это просто производные разных порядков в системе кожаных стохастических дифференциальных уравнений.