Малоизвестное интересное

#NLP

Канал

@theworldisnoteasy

63,44 тыс.

подписчиков

фото

видео

1,78 тыс.

ссылок

Авторский канал Сергея Карелова о самом важном на фронтирах науки и технологий, что кардинально изменит людей и общество в ближайшие 10 лет. Рекламы, ВП и т.п. в канале нет. Пишите на @karelovs

Малоизвестное интересное

Meta AI + Google AI cоздают единую модель понимания всей человеческой речи.
В 2021 это уже не фантастика, а чисто инженерная задача.
Под дымовую завесу пустопорожней полемики о реализуемости сильного ИИ (AGI), БигТех проявляет бульдожью хватку при решении самых востребованных для бизнеса задач. И пока ширнармассы всюду где попало щеголяют знанием в реальности уже устаревшего термина «Большие Данные», БигТех уже сделал ставку на понятие нового поколения - «Большие Модели».

В новой системе самостоятельного обучения речи на 128 языках используется очень большая модель. XLS-R – это нейронная сеть для распознавания речи, определения языка и перевода. Она использует 2 млрд параметров и почти полумиллиона часов общедоступной речевой аудиозаписи на 128 языках, что почти в 10 раз больше, чем в предыдущей системе Facebook, созданной в прошлом году. Результат уже впечатляет - снижение уровеня ошибок в среднем на 14-34%.

Бизнес цель планируемого прорыва двойная:
• Окончательное решение вопроса синхронного перевода человеческой речи, с помощью мобильных гаджетов (мечта фантастов 20го века)
• Голосовое общение человеко-машинных сущностей в виртуальных средах Метавселенной (на что фантастам не хватило фантазии, а вот БигТеху хватило)

Объявление
Подробное описание
#NLP

Facebook

XLS-R: Self-supervised speech processing for 128 languages

We are releasing XLS-R, a new self-supervised multilingual model trained on 128 languages for a variety of speech tasks. XLS-R sets a new state of the art on several speech recognition benchmarks, foreign-to-English speech translation, and language identification.

18.7K viewsedited 11:51

Малоизвестное интересное

Эрни от Huawei побил Берта от Google
Разговоры о том, что Китай лишь копирует прорывные решения, пора забыть. Вот яркий пример реально прорывного подхода в NLP. Исследователи из Университета Цинхуа и компании Huawei Technologies разработали ERNIE (модель расширенного представления языка с информативными сущностями), работающую ощутимо точнее, чем новейшая и лучшая в мире модель BERT, недавно разработанная Google AI.
Во время предварительного обучения система пытается связывать слова, которые она читает, с сущностями, хранящимися в структурированном графе знаний. Для интеграции внешних источников данных исследователи создают дополнительную цель предварительного обучения, которая побуждает систему изучать соответствия между различными цепочками токенов. Например, текст «Боб Дилан написал Blowin' in the Wind в 1962 году» и найденные в нем сущности (Боб Дилан, Blowin' in the Wind).
Суть метода в том, что при предварительном обучении объединяются текст из Википедии с встраиваемыми знаниями. Эти знания получают в ходе обучения на Викиданных. Они представляют собой структурированный набор имен объектов, используемых для идентификации сущностей в графе знаний.
Результаты испытаний таковы.
1) Модель ERNIE показала по точности лучшие результаты (примерно на 5-7%) во всех тестах.
2) ERNIE также превосходит BERT в классификации отношений между объектами.

Можно констатировать.
Китайцы разработали экспериментальную систему, реализующую новый подход в NLP: Языковая модель + База знаний
Этот подход может стать прорывным шагом:
- от систем, «понимающих» контекст путем сравнения слов, стоящих до и после обрабатываемого,
- к системам, «понимающим» контекст путем сопоставления его с известными фактами о сущностях.
Второе видится значительно эффективней.

О BERT прочтете здесь
Об ERNIE и о том, как он побил BERT, - здесь
#NLP

Tproger

Google AI представила BERT, метод предварительной тренировки для обработки естественного языка

BERT подразумевает начальную тренировку на большом массиве неразмеченных данных, чтобы дать модели «общее представление о языке».

9.0K views09:00

Малоизвестное интересное

Самая инновационная, прорывная и интригующая технология в области ИИ
(по версии канала «Малоизвестное интересное», IDC и Gartner )

Эта технология семантического поиска (поиска по смыслу) позволяет следующее.
✔️ Идентифицировать контент по его смыслу, а не по ключевым словам
✔️ В поисковом запросе используются не ключевые слова, а пример документа – мол, «я ищу документы про это»
✔️ Документ-пример на английском языке используется для поиска близких по смыслу документов «про это» на 20+ языках
✔️ Поиск в терабайтах данных идет на порядок быстрее, чем по ключевым словам
✔️ Проблемы многозначности и двусмысленности слов неявно решаются с помощью семантических сравнений
✔️ Система поиска добавляет новые термины «на лету» без переучивания и вообще без какой-либо переподготовки (т.е. динамически расширяет словарный запас)

Подробней я написал здесь https://goo.gl/2PHhNX

#АльтернативныйИИ #NLP #Семантика

Medium

Самая инновационная, прорывная и интригующая технология в области ИИ

(по версии канала «Малоизвестное интересное», IDC и Gartner)

6.5K views10:29