Очень дорогой этап обучения нейросетей — RLHF, дообучение с человеческим фидбэком, я про него уже писал в разлетевшемся посте
про слово delve.
Если вы им занимаетесь, то вот вам идея: наймите в команду когнитивного психолога. У нас десятки подходов, которые позволяют сделать этот этап быстрее и лучше. Вот вам примерное направление мысли:
- Всего две статьи про использование сигнала из айтрекинга для rlhf (обе плохие).
Вот бы была компания с мощнейшей нейронкой и огромной юзербазой айтрекеров в их виар шлемах
- НОЛЬ статей про использование имплицитных методов.
Тут не буду подробно распинаться, буквально миллионы долларов закопаны, надеюсь, кое-что сделаем в этой области на работе в ближайшее время.