RIG-RAG и DataCommons, как Gemma работает с надежными источниками данных.
Как-то осталось незамеченным
решение Gemma вчера на фоне o1 от openAI, при том что вышел анонс пораньше. И если o1 работает с релевантностью ответов через CoT, то гуглы идут от своих преимуществ поиска и собирают
DataCommons. DataCommons—это источник надежных БД (по мнению гугла), состоящий из разных доменов и типов данных (таблицы, текст, графики и тп.), которые динамически расширяются и изменяются.
Естественно, для вопросно-ответных систем надежность источников данных стоит на первых местах. Помимо этого Gemma использует два уже устоявшихся концепта
RIG и
RAG поверх DataCommons.
RIG позволяет делать из промпта упреждающие
структурированные запросы в БД , обращаясь именно к тем доменным областям и данным, которые релевантны для исходного запроса. Также в данной системе есть алгоритм проверки достоверности стат.данных извлеченных из БД. При этом RAG используется также—запрос трансформируется в
К запросов свободной формы в разные места БД.
Совмещение надёжных источников, rig и rag дает прирост в релевантности ответов, для примера в gemma27b и 7b.
Гугл продолжает свои исследования.