2. Второй вопрос в этом сюжете – это вопрос о том, можно ли по корпусу человеческих текстов реконструировать всю полноту человеческого мышления, которое их породило. Я много ранее высказывался по этому вопросу (и часто дискутирую его со студентами в МГУ, спасибо им за интерес к этим обсуждениям), можно посмотреть предыдущие посты, но суть такова. Тексты, которые порождают люди, являются результатом работы сетей мозга, отвечающих за речемыслительные процессы. За каждым словом, предложением, текстом лежит определенный динамический паттерн работы этих речемыслительных сетей. Есть определенная конечная вариативность слов, предложений и текстов (и лежащих за ними мыслей и цепочек мыслей), которые потенциально могут порождаться мозгом людей. Надо подчеркнуть, что эта вариативность очень большая, но не бесконечная. Теперь мы взяли огромную базу текстов, на которой начали обучать нашу большую языковую модель. Если эта база действительно велика (как, например, та гигантская база, которую использовали для обучения GPT-4), то она достаточно полным образом исчерпывает всю возможную вариативность связки «речемыслительные паттерны мозга – текст». Начинается процесс обучения, в ходе которого «цифровой мозг» большой языковой модели – огромная искусственная нейронная сеть – с помощью, в т.ч., алгоритма обратного распространения ошибки, ассимилирует в паттерне своих синаптических весов информацию из обучающих текстов. Теперь ключевой момент: если речемыслительные сети нашего мозга породили множество текстов, то теперь с помощью обучения большой языковой модели мы решаем обратную задачу – по этим текстам реконструируем в архитектуре «цифрового мозга» большой языковой модели исходные мозговые речемыслительные паттерны, породившие эти тексты. Это возможно, только если базовая архитектура «цифрового мозга» и принципы его обучения близки биологическому мозгу, но если обратное распространение ошибки не чуждо биологическому мозгу, то это правило выполняется (также важно, что искусственный мозг в случае GPT-4+, o1/3 очень мощный и стремится по числу синапсов к биологическому мозгу). В итоге, упрощая, можно сказать, что биологический мозг «отпечатывается» в текстах, и в процессе обучения по этим текстовым отпечаткам в памяти суперкомпьютера обратным образом реконструируется «цифровой мозг», существенно похожий на исходный оригинал.
Таким образом, если оба озвученных тезиса верны, то это означает, что большие языковые модели в своей эволюции стремятся к тому, чтобы на уровне своего внутреннего нейросетевого механизма полно отразить реальные мозговые механизмы человеческого мышления. Что, в свою очередь, означает, что таким путем можно прийти к AGI, а потом, продолжая масштабирование (уже скорее не самих моделей, а цепочек их мышления) и к сверхинтеллекту (ASI). Вероятно, Суцкевер (между прочем, бывший аспирант Хинтона) уже представляет себе этот путь и теперь скорее озабочен тем, чтобы сверхинтеллект, т.е. наш эволюционный преемник, был бы безопасен для нас, что, впрочем, лично мне представляется совершенно неразрешимой задачей (можно посмотреть исследования Романа Ямпольского, где он это подробно и убедительно доказывает).