О пространных рассуждениях
(
или о попытках поднять IQ нейросеток)
В целом одним из кандидатов для
капч мог бы быть тест IQ на чём-то в духе
тестов Рейвена. Да, сегодня мы всё ещё умеем это делать лучше существующих алгоритмов, этому и посвящен
arc-agi benchmark, которому, судя по графику с их сайта, действительно ещё есть куда расти (хотя в текущих реалиях такая экстраполяция выглядит забавно).
Ему же и посвящено идущее
соревнование (за скачок до human perfomance 85% вам предлагают $0.5M) , в котором open-source LLM добрались до 46%. В целом часть задачек неплохо решаются и обычной маленькой CNN (
тут можно глянуть мой код), но их ещё пинать и пинать до обобщения. Аккуратно тыкая (см.
nature) gpt4 писать код по идее можно добиться и 50% (как
тут), но это долго, масштаб часов или даже дней.
Зато вчера вышла
o1 от OpenAi (
ссылка на обзор), которую не могу обойти стороной. Всего за 2 минуты на генерацию при самых наивных промтах она решила 5/14 предложенных arc задач с первой попытки (
тут составил пример диалогов и результатов генерации)! Всё же саморефлексия для моделей это большое благо.
P.S. как думаете, как будут выглядеть капчи лет через 10?)