Dealer.AI

Channel

6.74K

subscribers

Жоский ИИ дядя. Твой личный поставщик AI 💊💉🤖 Канал о мире интересного AI: ML, DL, NLP/NLU, RL, Retrieval, RecSys. Для связи @dealer_ai Habr @Andriljo

Dealer.AI

Microsoft (не)учит нейросети пока вы тапаете хомяка макросы в Excel. Забавная новость дня. Пользователи Word и Excel узнали,что стали кожАнными подопытными нейросетей. У них мол воруют информацию, чтобы тренировать искусственный интеллект от Microsoft. Юзеры…

Meme

1.5K views15:08

Dealer.AI

Microsoft (не)учит нейросети пока вы тапаете ~~хомяка~~ макросы в Excel.

Забавная новость дня.
Пользователи Word и Excel узнали,что стали кожАнными подопытными нейросетей. У них мол воруют информацию, чтобы тренировать искусственный интеллект от Microsoft.

Юзеры заметили,что в Word и Excel по умолчанию активна функция отправки в Microsoft информации. Данная информация в дальнейшем будет использоваться для обучения нейросетей.

Ну в целом, как бэ не удивительно, зачем отказываться от такого источника данных для дообучения своих LLM и тп. Тем более для автоматизации аналитики и вычислений при помощи ИИ. Однако, если учесть,что в Excel работают с NDA информацией, становится неприятненько.

Ранее Excel держал фиансовый мир, теперь видать будет AI 🧠 (ща заделаю мем).

Please open Telegram to view this post

VIEW IN TELEGRAM

Bloomberglaw

Microsoft Denies Training AI on Customer Data Following Uproar

Microsoft Corp. rejected claims that it uses customer data from Microsoft 365 consumer and commercial applications, such as Word and Excel, to train large language models, after user worries spread on social media.

1.6K viewsedited 15:08

Dealer.AI

Псс, ребятки, не хотите погрузиться в мир audio и speech?

Тут мои знакомые из ШВМ (@shvmxyz) открывают набор на курс.

Что предлагают ребятки:
- Учим искусственный интеллект слушать (ASR) и говорить (TTS)
- Сильная команда преподавателей:
✅ Павел Северилов (NLP Team Lead Data Scientist в ecom.tech)
✅ Даниэль Князев (Ведущий разработчик в XLabs-AI)
- ориентируемся на практику
- Старт курса 9 декабря 2024

Записавшись до конца недели (01.12.24 включительно) можно получить скидку 50% на курс по промокоду DEALER50 (о, за это спасибо от Дяди).

Крч, шкет, скиллы сейчас работы со звуком на вес золота, спецы редкие, спрос есть. Дерзайте.

shvm.xyz

Audio в AI

Учим искусственный интеллект слушать (ASR) и говорить (TTS)

1.7K viewsedited 08:19

Dealer.AI

Distillation is all you need? Или опыт репликации знаний из O1.

Вышла статья про то,как использование знания (внезапно не новое) из синты созданной через рассуждения модели учителя бустит ученика. Тут мы передаем привет снова Orca, Alpaca и прочим животным и не очень.
При этом выводы не новы, еще со времен BERTов было известно,что ученик может превзойти учителя, причем иметь гораздо ниже ёмкость. Важнее тут,как отметили мои коллеги, инволюция исследований. Проще взять топ модель по апи, вложиться в ее обстрел, а далее обучить меньшую модель на этой синте, дистильнув знания учителя. Таким образом, возможно, по мнению авторов, снижение фундаментальных исследований и перекладывание этого на плечи атлантов в виде OpenAI, Meta, Google и тп.

Однако, я хотел бы поговорить еще про инволюцию архитектур. На примере Qwen (а я напомню,что он llama like) мы можем увидеть форки известных архитектур (с небольшими доработками) + хороший pretrain. Те порой компаниям проще форкнуть код условной llama2 или mistral и на этом с 0, со своим претрейн сетом и сфт сетом сделать решение, не тратя средства на свой research архитектуры. Конечно, не всем удается, при том же форке завести достойные Mistral/Qwen уровня модели.

Является ли это проблемой? Не знаю. Решать Вам, читатели. В целом, снова поймал себя на мысли, сколько крутого Цукерберг с их public Llama архитектурой сделали для демократизации ИИ. Да еще срезали косты на исследования своих архитектур некоторым командам, оставив только вопросы сбора/чистки сетов, и затрат на обучение.

1.8K viewsedited 10:31

Dealer.AI

Метрики

2.6K views17:44

Dealer.AI

Телега за внимание.

2.6K views17:40

Dealer.AI

2.4K views17:40

Dealer.AI

Объяснение типов "памяти".

2.2K views17:39

Dealer.AI

Схема Hymba block

2.1K views17:38

Dealer.AI

Mamba, Jamba, Ху...Hymba!

🤣

NVIDIA представило новую гибридную модель Hymba (Химба, а не то,что ты подумал).

Как известно, SSM модели имеют свои архитектурные преимущества по отношению к трансформерам. На самом деле одно преимущество - линейная сложность от длины входной последовательности. При этом SSM модели имеют проблемы с "запоминанием" контекста при большой длине последовательности и не смогли показать иных плюсов кроме сложности.

В новой работе авторы показывают гибридизацию внимания и SSM модели (фото архитектуры будет ниже). Однако, в отличие от предыдущих работ, мы не имеем последовательно блок SSM, далее блок внимания, а их использование происходит параллельно. В таком сетапе, мы к сожалению не уходим полностью от квадратичной сложности по длине последовательности, в отличии от последовательного гибрида.

Однако,авторы уповают на иные "сильные" стороны. Во-первых, используется аналогия с работой мозга. Для запоминания четких образов/мгновенных снимков событий в модели работает SSM блок, в то же время для контекстной связности и длинной памяти используется full attention блок. Также авторы добавили в архитектуру мета-токены, которые используются, по мнению авторов,как навигаторы какие области архитектуры активировать. Интересное замечание,что масштаб векторов вложений после SSM блока на порядки выше, векторов после блоков внимания. Для их выравнивания используется gating norm— привет, нормализация, в классик трансформере после конкатенации multi-head attention. Выходы блоков усредняются.

Кстати, тут же рождается идея у Дяди. И тебе шкет советую положить руки на стол 🔫, а не бежать делать по ней папиру.
Почему бы вдобавок к gating norm, не использовать gating routing как в MoE. В итоге получаем умную маршрутизацию экспертов SSM блоки или full attention в зависимости от того,что нужно хранить/обработать. Да еще и время инфера апнет (то linear time, то n^2, а не всегда n^2).🫥

Ладно,помечтали и хватит, вернёмся к статье. Там есть еще пару хак. Связка ssm+mha представляет собой hymba block, такой блок чередуется с SWA блоком (аля как в longformer было). В таком блоке скользящее внимание юзает не все токены, а работает с окном внимания,которое идет "внахлёст". Так, видимо, хотят сократить/устремить сложность от O(N^2) до условно O(N*logN). Далее еще также используется KV-caching,НО с обобщёнными KV-матрицами между блоками.

В статье есть блок с ablation study,советую глянуть. Ну и конечно метрики, где сравниваются small-LM, кажется, до 3b параметров (метрики ниже). Как видим, модель с таким комбо вниманием, проявляет себя лучше на задачах,где важны знания о мире,фактология и тп. Логично, авторы ж работают вокруг концептов "памяти".

Так, вроде, всё. Читаем статью, модельки лежат тут, git. Дядя пошел папиру про MoE Hymba писать (но это не точно).😏

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Hymba: A Hybrid-head Architecture for Small Language Models

We propose Hymba, a family of small language models featuring a hybrid-head parallel architecture that integrates transformer attention mechanisms with state space models (SSMs) for enhanced...

2.2K viewsedited 17:37

Dealer.AI

У каждого свой путь в AGI

Нашел на пикабухе.

2.2K views16:33

Dealer.AI

Создай свою роборуку с LeRobot. Ребятки тут анонсировали свой курс на huggingface по обучению роботов, в тч. манипуляторов. Теперь-то ты сможешь запрогать свои руки загребуки или облегчить жизу вон тому экскаваторщику за 300. Гоу пробовать тут

3:48

Media is too big

VIEW IN TELEGRAM

Подписчик @Orzhan таки собрал первый прототип.

Красивое...
Смотреть со звуком.

3.3K viewsedited 10:09

Dealer.AI

Крч, ребяты, покекали мы над резюме и хватит, Дядя, кстати, еще таких +2 нашел.

Выводы:
1. Проверяйте,что сделали,если с LLM.
2. Если берёте чужие шаблоны, менторов и тп. тем более проверяйте за ними.
3. Лучше вообще под себя,под реальный опыт и места работы переделать.

3.3K viewsedited 11:44

Dealer.AI

Forwarded from RnD CV Team

Всем привет! 👋

⚡️ Этой осенью мы выступили на конференции Ai Conf 2024. За два дня конференции мы представили 6 докладов, а также приняли участие в панельной дискуссии о будущем искусственного интеллекта. Записи докладов доступны на YouTube по ссылкам ниже.

Фокусом выступлений были большие языковые модели и мультимодальность:

🎤 Алёна Феногенова рассказала про то, как обратная связь от пользователей помогла улучшить бенчмарк MERA и сделать его новую версию более объективной;
🎤 Доклад Бориса Жесткова посвящён использованию LLM для задач в аудиодомене: для понимания, распознавания и генерации речи;
🎤 Эмиль Шакиров разобрал все этапы работы с визуальными языковыми моделями от выбора архитектуры и сбора данных до запуска экспериментов;
🎤 Дмитрий Антипов рассказал о процессах сбора и разметки огромных корпусов мультимодальных данных в эпоху больших языковых моделей;

Также мы представили 2 доклада в области компьютерного зрения:
🎤 Петр Суровев поделился опытом создания датасета жестового языка: как мы собирали данные, с какими трудностями столкнулись, и что у нас получилось;
🎤 Елизавета Петрова рассказала про задачу портретной гармонизации: как мы разработали архитектуру для её решения и создали дататсет для портретной гармонизации из открытых источников.

🗣️ Также на конференции Александр Абрамов, автор канала @dealerAI, вместе с коллегами из других компаний обсудили будущее искусственного интеллекта: как LLM меняют рынок труда, как работать с этикой и безопасностью моделей, и что ждёт нас всех в скором будущем в контексте развития AI. Ответы экспертов на эти и другие вопросы прозвучали на панельной дискуссии.

Будем рады вашей обратной связи! 💙
#news

3.4K views11:00

Dealer.AI

Forwarded from Настюшкины Генерашки

Наши сказки в Майами 🌟

Этим летом мы решили написать статью о пайплайне генерации и оценке качества текстов, который используем в #сочинисказку
По ходу работы ещё начали погружаться в LLM as a judge - добавили оценку не только людьми, но и языковой моделью - так что теперь продолжаем глубже уходить в эту тему.

Но, возвращаясь к статье, - работали быстро, где-то параллельно с продовыми задачами, где-то в выходные (в том числе наши разметчики - за что большое спасибо!), но всё вышло отлично ☀️ и мы прошли на воркшоп EMNLP! С первой идеи и попытки 🤩

Это ведущая конференция в области обработки естественного языка и искусственного интеллекта.

У коллеги получилось поехать и показывать постер гостям конференции лично ☀️

Такие новости к утру субботы.

Передаём большой привет в Майами 💞

Please open Telegram to view this post

VIEW IN TELEGRAM

4.1K views10:03

Dealer.AI

Наши на EMNLP. Спасибо,нашим девочкам за интересную работу и прикладное применение.💃🦾💅

З.Ы. Рад,что такие исследователи у меня в команде.

👇👇👇👇👇👇

3.2K viewsedited 10:03

Dealer.AI

На днях разлетелась новость, что тут Gemini кожАному желала стать строчкой в death note.

Потом Гугл сказал, мол у них все на этик фильтрах и чики-пуки.

Ребяты, ни bert классификаторы,ни regexp, ни золотые погоны, ни галуны и лампасы не спасут вас на 100% от черных лебедей от LLM в виде хейт спича или глюков. Это все вопрос рисков, той доли % которую Вы и ваша ~~шарага~~ компания готовы на себя принять.

С любовью Ваш, Дядя.

3.8K viewsedited 19:34

Dealer.AI

Неделя мемов с китайскими моделями продолжается

Спасибо @walfry

3.7K viewsedited 11:50

Dealer.AI

Hunyuan Large,ваще Hunyuan 💳 Статья с мемным названием (олды оценят) от наших Китайских коллег про yet another MoE на 389B параметров с 52B активными. Помимо того,что в статье снова указана важность хороших pretrain datasets с чисткой блекджеком и иным fabric…

Из соседнего чатека: релизов на хф видимо больше не будет...(с)

В Китае, видимо, HF не будет 💳 🇨🇳

Элаймент конечно кхм у них свой)
Upd. А Винни_Пуха за что!?

Please open Telegram to view this post

VIEW IN TELEGRAM

3.8K viewsedited 21:11