Эрни от Huawei побил Берта от GoogleРазговоры о том, что Китай лишь копирует прорывные решения, пора забыть. Вот яркий пример реально прорывного подхода в
NLP. Исследователи из Университета Цинхуа и компании Huawei Technologies разработали ERNIE (модель расширенного представления языка с информативными сущностями), работающую ощутимо точнее, чем новейшая и лучшая в мире модель BERT, недавно разработанная Google AI.
Во время предварительного обучения система пытается связывать слова, которые она читает, с сущностями, хранящимися в структурированном графе знаний. Для интеграции внешних источников данных исследователи создают дополнительную цель предварительного обучения, которая побуждает систему изучать соответствия между различными цепочками токенов. Например, текст «Боб Дилан написал Blowin' in the Wind в 1962 году» и найденные в нем сущности (Боб Дилан, Blowin' in the Wind).
Суть метода в том, что при предварительном обучении объединяются текст из Википедии с встраиваемыми знаниями. Эти знания получают в ходе обучения на Викиданных. Они представляют собой структурированный набор имен объектов, используемых для идентификации сущностей в графе знаний.
Результаты испытаний таковы.
1) Модель ERNIE показала по точности лучшие результаты (примерно на 5-7%) во всех тестах.
2) ERNIE также превосходит BERT в классификации отношений между объектами.
Можно констатировать. Китайцы разработали экспериментальную систему, реализующую новый подход в
NLP:
Языковая модель + База знанийЭтот подход может стать прорывным шагом:
- от систем, «понимающих» контекст путем сравнения слов, стоящих до и после обрабатываемого,
- к системам, «понимающим» контекст путем сопоставления его с известными фактами о сущностях.
Второе видится значительно эффективней.
О BERT прочтете
здесьОб ERNIE и о том, как он побил BERT, -
здесь#NLP