О пространных рассуждениях (или о попытках поднять IQ... / Графики каждый день (почти) / Telegram Center

О пространных рассуждениях (или о попытках поднять IQ нейросеток) В целом одним из кандидатов для капч мог бы быть тест IQ на чём-то в духе тестов Рейвена. Да, сегодня мы всё ещё умеем это делать лучше существующих алгоритмов, этому и посвящен arc-agi benchmark, которому, судя по графику с их сайта, действительно ещё есть куда расти (хотя в текущих реалиях такая экстраполяция выглядит забавно). Ему же и посвящено идущее соревнование (за скачок до human perfomance 85% вам предлагают $0.5M) , в котором open-source LLM добрались до 46%. В целом часть задачек неплохо решаются и обычной маленькой CNN (тут можно глянуть мой код), но их ещё пинать и пинать до обобщения. Аккуратно тыкая (см. nature) gpt4 писать код по идее можно добиться и 50% (как тут), но это долго, масштаб часов или даже дней. Зато вчера вышла o1 от OpenAi (ссылка на обзор), которую не могу обойти стороной. Всего за 2 минуты на генерацию при самых наивных промтах она решила 5/14 предложенных arc задач с первой попытки (тут составил пример диалогов и результатов генерации)! Всё же саморефлексия для моделей это большое благо. P.S. как думаете, как будут выглядеть капчи лет через 10?)

https://t.center/qdiag/407

1.6K viewsKirill Khoruzhii, edited Sep 13, 2024 at 07:01

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily