эйай ньюз

Канал
Логотип телеграм канала эйай ньюз
@ai_newzПродвигать
60,25 тыс.
подписчиков
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @kander426
Лол, стример Kai Cenat купил робота EVE.

Помните, я писал про X1? Так вот, похоже, первые модели разъехались по домам. Наблюдать за историей приходится от лица бешеных стримеров.

Плюсом ко всему, они, видимо, зафайнтюнили бота под хозяина, и теперь он, помимо обычных робо-дел, ведет себя несколько *freaky*. Спокойно произносит слово на букву "N" и говорит о том, что переспал с Alexa от Amazon. Я собрал для вас небольшую подборку выше. Зацените угар.

Но скорее всего роботом управляет человек, конечно же.

А, ну и да, еще X1 со злости разбил ему телек 😂

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Вот как выглядит работа этого метода:

Одна шакальная камера на голове, о качестве можете судить сами в правом верхнем углу. В середине — предсказанное положение тела и облако из SLAM-точек. + можете сравнить с тем, что было на самом деле.

@ai_newz
Риалтайм предсказание положения тела по одной ego-камере😨

Одна из главных проблем всех этих ваших виаров и эйаров заключается в том, что нужно раскидать камеры по всей комнате для трекинга положения тела. Я тоже решал эту проблему, когда работал в Reality Labs - мы предложили диффузионную модель AGRoL, которая по трекингу рук и головы синтезирует движение всего тела в 3D. Теперь зацените свежачок от интернов из Meta Reality Labs.

Тут пошли еще дальше и используют только одну RGB камеру на голове (которая итак стоит во всех VR/AR очках), они смогли в реальном времени (70FPS на A100) с задержкой всего 0.17 секунд отследить положение всех конечностей, даже если они не попадают в кадр.

Ребята решили взять максимум из того, что есть: они скормили диффузионке данные о положении головы, цветную картинку и набор SLAM-точек (думайте об этом как о гауссовских сплатах на минималках). Кроме того, добавили CLIP-эмбеддинг для извлечения семантической информации (что находится в кадре). Всё это обучили на 200 часах видеоконтента с данными от motion capture костюма для захвата движений.

В результате получилась модель, которая не только лучше предшественников, но и работает супербыстро, что позволяет использовать её для онлайн-процессинга. Правда, пока SLAM работает только в статике — если, например, передвинуть стол, модель этого не заметит.

Очевидно, бенефициар этой технологии — это AR и VR. Игрушки выйдут топовые, хоть на поле 100 на 100 игроков устраивай, как это показывал Snapchat на последней презентации своих очков. Нужно только рядом кластер с хотябы 1xA100 на человека поставить 😁.

Помимо игр, технология пригодилась бы в робототехнике, в частности, для обучения робогуманоидов нормально ходить и ориентироваться в пространстве. Такие данные сложно получить сразу в большом объёме, поэтому сейчас, например, используют imitation learning, как в этом посте про живую сталь.

Пейпер
Код (скоро)
Project page

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Как работают генеративные технологии, которые лежат в основе большинства визуальных сервисов? Какова их «математическая начинка»? Получите ответ на эти и другие вопросы на бесплатном интенсиве Computer Vision Week! Он пройдёт с 25 по 29 ноября онлайн и поможет вам разобраться в сложных вопросах компьютерного зрения и диффузионных моделей.

Среди организаторов — эксперты, которые создают технологии будущего: Школа анализа данных, YaArt и YaResearch. За 5 дней они расскажут, как устроена генерация изображений на практике: от математических основ и алгоритмов до нейробайесовских методов. Вы также научитесь работать с генеративными технологиями самостоятельно и узнаете, какие горизонты они открывают для разработчиков и исследователей.

Что ещё? Вы не только послушаете лекции, но и сможете попробовать свои навыки на практике — в решении задач. Те, кто успешно справится с отборочными испытаниями и итоговой работой, получат заветный сертификат в портфолио!

Успейте зарегистрироваться до 24 ноября, пока есть места!

#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
GPT-2 Small теперь тренируют в полтора раза быстрее

Модель теперь тренируется менее чем восемь минут на 8xH100 - всего пару недель назад это занимало более 12 минут. Стоимость тренировки упала до 3 долларов. Давайте разберём как так вышло.

Основной архитектурный трюк - улучшенный value residual learning. Он нужен потому, что модели на более глубоких слоях фокусируются на меньшем количестве токенов, что сильно снижает эффективность глубоких слоёв. Решается это домешиванием в values n-го блока values из первого блока трансформера. То есть в attention идёт не обычная value-матрица, а взвешенное среднее текущей value-матрицы и таковой из первого блока. Параметры для усреднения обучаются отдельно для каждого трансформерного блока.

Такой же трюк с value residual learning применяют и к эмбеддингам - в каждом трансформерном блоке эмбеддинги также взвешенно усредняются, как и value-матрица.

Ещё одно изменение, которое срезало чуть больше минуты от тренировки, - отвязывание embedding-слоя от lm head. Это повысило количество параметров на 39 миллионов, но никак не повлияло на количество активных параметров и время каждого шага. Авторы репозитория сказали, что с данного момента будут ограничивать себя активными параметрами, так что мы вполне можем увидеть MoE через неделю-другую.

Из мелочей - lm head инициализируется теперь нулями, а после эмбеддинг-слоя добавили одну норму. Максимальное значение логитов теперь ограничено, по заветам Gemma 2. А ещё заметили что по дефолту в PyTorch в mixed precision режиме bfloat16 используется достаточно консервативно, поэтому вручную заменили fp32 на bfloat16 в паре мест.

Кстати, автор доказал, что они скейлятся как минимум до 1.5B, по крайней мере на нескольких миллиардах токенов. Это обнадёживает, но не означает, что все эти трюкт стоит использовать в тренировке больших моделей. Ждём, когда кто-то попробует это либо на моделях побольше (7B+), либо на бо́льшем количестве токенов (1T or bust).

Такие спидраны нужны по двум причинам. Первая — повышение эффективности претрейна больших моделей: даже если не всё масштабируется, то что-то точно будет. А наличие чёткого базового уровня помогает лучше понять эффективность каждого отдельного изменения. Вторая - повышение доступности ресёрча. Одна 3090 может натренировать такую модель примерно за 8 часов (одну ночь), без этих оптимизаций тренировка на 3090 приближалась бы к суткам, что сильно снижает скорость итерации.

https://github.com/KellerJordan/modded-nanogpt/

@ai_newz
Вы меня спрашивали, как найти классного ментора, если на текущей работе нет никого подходящего, либо если вы сам себе хозяин. Есть вариант найти себе подходящего ментора на разных платформах типа intro (у Насти есть хороший пост на этот счет).

Конечно, это стоит недешево (от $500 до нескольких тысяч в час), но я убежден, что встреча с толковым ментором раз в месяц или хотя бы раз в два месяца может очень сильно помочь и сдвинуть вас с мертвой точки в карьере.

Кроме того так вы можете знакомиться и расширять свой нетворк с людьми, которых очень трудно случайно встретить в жизни.

Кстати, это никакая не реклама, чисто делюсь лайфхаками.

#карьера
@ai_newz
Пришли ревью с ICLR. Мы получили отличные рецензии! Но как всегда есть тот самый Reviewer #2, который порет какую-то фигню.

С поддержкой остальных ревьюеров, думаю, мы легко сможем опровергнуть R2, и, надеюсь, статья будет принята.

Что за статья пока точно сказать не могу :) Могу только сказать, что она про LLM.

А как ваши ревью, если сабмитили?

#конфа #резерч
@ai_newz
Вот еще примеры SeedEdit. Первые две картинки с китайского сайта, где, вроде бы, можно потыкать модельку, пока Hugging Face лежит, но нужен китайский номер. Демки целых две: вот первая и вторая. Остальные — это черрипики из статьи.

@ai_newz
Telegram Center
Telegram Center
Канал