[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья:
https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге:
https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google I/O компания анонсировала свою новую модель PaLM 2. Это наследник модели PaLM с 540B параметров 2022 года (
https://arxiv.org/abs/2204.02311), более вычислительно эффективный, меньший по размеру, но более качественный, а также мультиязычный с поддержкой более 100 языков, с хорошими способностями генерации кода и улучшенными способностями к reasoning’у.
Работа опубликована в формате похожем на GPT-4 (
https://t.center/gonzo_ML/1383), технический отчёт без технических деталей.
Что при этом можно сказать про модель?
Это трансформер, скорее всего только декодер, как и PaLM.
В работе снова фокус на скейлинге, авторы незавиcимо подтвердили наблюдения из работы про Шиншиллу (
https://t.center/gonzo_ML/1216), что с ростом вычислительного бюджета данные надо скейлить в той же пропорции, что и саму модель. И получили оценки оптимального размера модели под бюджет очень близкие к той работе. При этом на downstream задачах более крупная модель всё равно может быть лучше, чем оптимальная по лоссу предобучения.
Текстовый корпус для предобучения модели существенно больше, чем был у PaLM. При этом доля не-английского в нём увеличилась. Кроме монолингвальных неанглийских текстов, в обучение также добавили параллельные данные по сотням языков в паре с английским. Благодаря этому модель сходу может и переводить, как могут переводить и ChatGPT (
https://t.center/gonzo_ML/1405) с GPT-4 (
https://t.center/gonzo_ML/1413). Скоро померяем и для PaLM 2 (как только текущая модель в preview скорректирует свою паранойю про несоответствие запросов полиси). Но заявлено, что она уже лучше текущего Google Translate.
В целом для задач работы с языками модель выглядит очень интересно, и по пока не подкреплённому реальным опытом ощущению это должно быть лучше GPT-4 в реальных задачах, где нужен не только английский.
Модель была обучена на контекстах значительно большей длины, чем PaLM (там было 2048 токенов). В обучении используется смесь разных objectives аналогичная UL2 (
https://t.center/gonzo_ML/1113). Вероятно есть и какие-то архитектурные улучшения.
Проверялись на трёх вариантах размера модели: Small (S), Medium (M), и Large (L). Самая большая из них значительно меньше по размеру, чем 540B PaLM, но требует вычислений больше. В API при этом будет вынесено 4 разных модели: Gecko, Otter, Bison, Unicorn (самая большая). Gecko заявлено что будет влезать на мобильные устройства и работать там достаточно быстро в локальном режиме оффлайн. Предположу, что Gecko меньше Small. По умолчанию все результаты репортятся для модели Large. При этом ещё и делают усреднение по последним пяти чекпойнтам модели.
Продолжая традицию измерения качества моделей не на специальных датасетах, а на человеческих экзаменах, модель успешно проходит множество экзаменов на разных языках (за вычетом разговорной части), например, у неё проходной балл на Goethe-Zertifikat C2, “proving high-level German language ability”.
Хорошее улучшение относительно PaLM на английских задачах QA и классификации в 1-shot. Заметное улучшение на неанглийских.
Новые SoTA на reasoning, включая заметно побитый результат GPT-4. Есть также версия модели Flan-PaLM 2, зафайнтюненная на инструкциях. Она, например, лучше обычной PaLM 2 в математических задачах.
Для работы с кодом взяли PaLM 2-S (для интерактивности нужна быстрая небольшая модель) и продолжили обучение на специальном мультиязычном датасете, где много кода. Она обошла намного более тяжёлую и медленную PaLM-540B-Coder.
Генерацию оценивать сложно, но там модель тоже, похоже, хороша. Намного лучше PaLM.
Исследовали запоминание данных моделью, оно ниже, чем у PaLM, особенно если не было много повторов в исходных данных.
Отдельная большая часть работы про токсичность и Responsible AI.