«Эксперименты указывают на то, что существует фаза, в которой модель отходит от запоминания концепций и распутывает каждую из концепций, но все еще производит неверные изображения. Мы утверждаем, что в некоторой точке обучения модель фактически уже распутала концепции, лежащие в основе процесса генерации данных [прим.: закономерности мира, который порождают картинки], и приобрела соответствующие возможности для манипулирования ими. Однако наивный промптинг недостаточен для выявления этих возможностей и генерации образцов из классов, не представленных в обучении, что создает впечатление, что модель еще «некомпетентна». Затем это приводит ко второй фазе в динамике обучения ... которая включает в себя согласование входного пространства запросов с промежуточными представлениями, которые позволяют выявлять навыки модели.»
И авторы приходят к следующей гипотезе, которая распространяется не только на маленькие игрушечные модели генерации картинок, но и на LLM:
> Генеративные модели обладают скрытыми возможностями, которые усваиваются внезапно и последовательно в процессе обучения, но наивный промптинг может не выявить эти возможности, тем самым скрывая, насколько «компетентна» на самом деле модель
TLDR: скорее всего модели, которые у нас есть сегодня, на самом деле умеют и знают куда больше, чем мы себе представляем, просто мы не умеем получать к этому доступ (и модель тоже). Как только мы сможем продвинуться в этом направлении, то даже маленькие модели, помещающиеся на телефон или ноутбук, станут гораздо полезнее.