View in Telegram
О пространных рассуждениях (или о попытках поднять IQ нейросеток) В целом одним из кандидатов для капч мог бы быть тест IQ на чём-то в духе тестов Рейвена. Да, сегодня мы всё ещё умеем это делать лучше существующих алгоритмов, этому и посвящен arc-agi benchmark, которому, судя по графику с их сайта, действительно ещё есть куда расти (хотя в текущих реалиях такая экстраполяция выглядит забавно). Ему же и посвящено идущее соревнование (за скачок до human perfomance 85% вам предлагают $0.5M) , в котором open-source LLM добрались до 46%. В целом часть задачек неплохо решаются и обычной маленькой CNN (тут можно глянуть мой код), но их ещё пинать и пинать до обобщения. Аккуратно тыкая (см. nature) gpt4 писать код по идее можно добиться и 50% (как тут), но это долго, масштаб часов или даже дней. Зато вчера вышла o1 от OpenAi (ссылка на обзор), которую не могу обойти стороной. Всего за 2 минуты на генерацию при самых наивных промтах она решила 5/14 предложенных arc задач с первой попытки (тут составил пример диалогов и результатов генерации)! Всё же саморефлексия для моделей это большое благо. P.S. как думаете, как будут выглядеть капчи лет через 10?)
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily