Ну наконец-то кто-то вслух высказался на тему бесконечных пузомерок из мира ИИ-моделей, называемых умным словом benchmarks, которые не только маркетологи в хвост и в гриву используют, но и более техничные ребята начали воспринимать всерьез — ну потому что как жить без пузомерки? Ленты новостей и каналы про ИИ завалены ежедневными сводками с полей разных арен и бенчмарков; мне вспоминаются времена, когда в еще некрупном Рунете было принято по утрам изучать счетчик Рамблера и делать из этого глубокомысленные выводы. Технологии изменились, людская (а разработчики тоже люди) психология — нет.
Так вот, группа исследователей решила разобраться с тем, что
these benchmarks are poorly designed, the results hard to replicate, and the metrics they use are frequently arbitrary. Это становится уже серьезной проблемой, потому что за бенчмарки схватились и законодатели, которым же надо порегулировать на якобы объективной основе.
Авторы работы подтвердили и наличие, и серьезность проблемы и, как положено, предложили свои способы решения. Интересно, что из этого возьмет на вооружение сообщество. Есть у меня некий скепсис…
https://www.technologyreview.com/2024/11/26/1107346/the-way-we-measure-progress-in-ai-is-terrible/
Оригинал работы -
https://arxiv.org/abs/2411.12990