Ну наконец-то кто-то вслух высказался на тему бесконечных... / TechSparks / Telegram Center

Ну наконец-то кто-то вслух высказался на тему бесконечных пузомерок из мира ИИ-моделей, называемых умным словом benchmarks, которые не только маркетологи в хвост и в гриву используют, но и более техничные ребята начали воспринимать всерьез — ну потому что как жить без пузомерки? Ленты новостей и каналы про ИИ завалены ежедневными сводками с полей разных арен и бенчмарков; мне вспоминаются времена, когда в еще некрупном Рунете было принято по утрам изучать счетчик Рамблера и делать из этого глубокомысленные выводы. Технологии изменились, людская (а разработчики тоже люди) психология — нет. Так вот, группа исследователей решила разобраться с тем, что these benchmarks are poorly designed, the results hard to replicate, and the metrics they use are frequently arbitrary. Это становится уже серьезной проблемой, потому что за бенчмарки схватились и законодатели, которым же надо порегулировать на якобы объективной основе. Авторы работы подтвердили и наличие, и серьезность проблемы и, как положено, предложили свои способы решения. Интересно, что из этого возьмет на вооружение сообщество. Есть у меня некий скепсис… https://www.technologyreview.com/2024/11/26/1107346/the-way-we-measure-progress-in-ai-is-terrible/ Оригинал работы - https://arxiv.org/abs/2411.12990

MIT Technology Review

The way we measure progress in AI is terrible

Many of the most popular benchmarks for AI models are outdated or poorly designed.

https://t.center/techsparks/4780

8.3K viewsNov 27 at 02:13

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily