🌸Все про агенты в LLM🌸 #nlp #про_nlp #nlp_papers... / Kali Novskaya / Telegram Center

🌸Все про агенты в LLM🌸 #nlp #про_nlp #nlp_papers #agirussia Когда привичных способностей LLM уже недостаточно, хочется добавить внешние модули — долгосрочную память, планирование, различные API. Прикрутить самокоррекцию и chain-of-thought. В таком случае, системе можно предоставить некоторую степень автономности — в ограниченных условиях. Такие системы принято называть агентами. 🟣Что такое агент? Агент — автономная система, в которой LLM является основными "мозгами", к которым подключены API и возможность их самостоятельно вызывать и работать с результатами этих вызовов. Проекты-прототипы: — AutoGPT — фреймворк для создания агентов и автоматизации LLM, приме проекта — https://godmode.space/ — GPT-Engineer — ассистент для написания кода, который может создать репозиторий проекта, задать уточняющие вопросы походу, написать код и тесты. — BabyAGI — Llama, RAG + планировщик в докере, такой LangChain на стероидах Такой подход хорошо соотносится с вики-определением AGI: для него нужна способность изъясняться на естественном языке, учиться новым навыкам, планировать, оперировать знаниями, принимать решения в условиях неопределенности. 🟣Что добавить в агента? — Набор действий: генерация команд, релевантных домену, которые можно однозначно проинтерпретировать (вызвать API, отправить поисковый запрос, отправить SQL-запрос в базу) — Планирование: Цели и их декомпозиция на последовательность действий: агент разбивает крупные задачи на более мелкие действия. Интересный подход — LLM+P (arxiv), где внешняя модель, а не LLM, отвечает за формализм планирования. Рефлексия и уточнение своих ответов по ходу цепочки сообщений: Chain-of-thought (arxiv), Tree-of-thought (arxiv), саморефлекция как в статье react (arxiv) или Chain of Hindsight (arxiv). — Память: RAG, векторные БД, хранение полезной информации в окне контекста. — API/Инструменты: имеет смысл подключать в первую очередь те инструменты, которые перекрывают недостатки LLM в вашей области применения. Наример, поиск часто изменяющейся информации (курс валют, погода), поиск по StackOverflow, подключение песочницы для исполнения кода. 🟣Как оценивать агентов? Оценка подразумевает тестирование агента в изолированной среде и % правильных ответов и действий в разнообразных задачах, обычно очень вольно сформированных. Может быть либо % правильных ответов, либо правильность цепочки действий, либо и то и то. На текущий момент есть 2 бенчмарка, которые работают именно с логами принятия решений автономных LLM-агентов — это WebArena и AgentBench. — WebArena смотрит на качество работы агента на основании автоматизации различных веб-задач (найди за меня в интернете, найди за меня в базе, подпиши меня на рассылку, сделай такую-то страничку), и с помощью автоматичсеких метрик оценивает в изолированной среде качество полученных ответов. Лидерборд пока выглядит странновато, и на 1 месте не GPT-4! — AgentBench развивает идею дальше, и для проверки успешности агентов представляет уже 8 различных сред — веб-браузинг, веб-шоппинг, работу с ОС, работу с SQL-бд, работу с графами знаний, игры, интеллектуальные головоломки, работа по дому (sic!). Задачи предлагаются самые разнообразные, но метрики привязаны именно к среде и набору действий при планировании. Свой бенчмарк есть формально и у проекта AutoGPT (link), пока что там всего 6 задач и 3 прототипа в лидерборде. Но уже есть задача по safety! 🟣Открытые вопросы — Как эффективно соединять все модули вместе? Наконец, нашлось применение для символьных методов? — Новые уязвимости: можно заставить агента зациклиться, бесконечно генерировать no_action_needed, заставить его потратить все оплаченные API лимиты — Генерация качественных синтетических данных с помощью агентов — решение проблем LLM? — Нет способа оценивать мультимодальных агентов Полезные ссылки: 🟣AgentBench Github 🟣WebArena link 🟣Agent Landscape SurveyAgent Landscape Survey arxiv 🟣The Rise and Potential of Large Language Model Based Agents: A Survey arxiv 🟣блог Lilian Weng - autonomous agents link 🟣Agent protocol link 🟣ICLR 2024 Workshop on LLM Agents link

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - Significant-Gravitas/AutoGPT: AutoGPT is the vision of accessible AI for everyone, to use and to build on. Our mission…

AutoGPT is the vision of accessible AI for everyone, to use and to build on. Our mission is to provide the tools, so that you can focus on what matters. - Significant-Gravitas/AutoGPT

https://t.center/rybolos_channel/1156

9.2K viewsTatiana Shavrina, Jun 6 at 09:43

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Бот для знакомств