View in Telegram
Media is too big
VIEW IN TELEGRAM
Всем привет, возвращаюсь к рутине! Две недели назад я была в Париже на конференции dotAI. Париж за последние годы стал важным хабом в области AI. Сильные университеты, крупные технологические компании, а также государственные инвестиции в сфере AI и предпринимательства укрепили позиции Парижа и создали динамичную экосистему стартапов, где можно встретить такие имена, как MistralAI, Hugging Face и многие другие. Следить за всеми новостями в сфере AI стало как никогда сложно — отвлёкся на минуту, и уже не в курсе событий! О том, как я слежу за прогрессом, я ещё расскажу, но качественные конференции точно отличный способ держать руку на пульсе. Что я увидела на dotAI и что было релевантно с продуктовой точки зрения? ▶️ OpenAI провели live demo своего нового Realtime API, который добавит вашим продуктам мультимодальные функции с очень низкой задержкой — это значит, что общаться голосом и запрашивать, например, изображения можно будет намного быстрее. Почему? Раньше разработчикам приходилось комбинировать несколько моделей для создания приложений на основе языка — транскрибировать аудиоданные, выполнять текстовое распознавание, а затем генерировать ответ с помощью синтеза речи. Этот процесс был медленным и часто приводил к неестественным взаимодействиям, так как зачастую терялись эмоции, акценты или интонации. Теперь разработчикам больше не нужно соединять несколько моделей для создания естественных разговорных взаимодействий — достаточно одного вызова API! Realtime API использует как текстовые токены, так и аудиотокены. Наверняка кто-то уже хочет спросить: ну и сколько это стоит? Как мы знаем, стоимость LLM API зависит от количества входных и выходных токенов. Токены — это слова или части слов, и в среднем 100 токенов соответствуют ~75 словам на английском языке. Входные текстовые токены оцениваются у Realtime API в $5 за 1M, а выходные — в $20 за 1M токенов. Аудиовход стоит $100 за 1M токенов, а вывод — $200 за 1M токенов. Это эквивалентно примерно $0.06 за минуту аудиовхода и $0.24 за минуту аудиовыхода. Realtime API позволяет создавать новое поколение продуктов, которые изначально построены в мультимодальном формате. Короче: круто! ▶️ О чём ещё говорили на конференции? В целом, неудивительно, что большой акцент был сделан на LLM. Потенциал мощности моделей уже давно ясен, но остаётся множество аспектов, которые только начинают раскрываться для широкой аудитории. Например, как контролировать output LLM, что чрезвычайно важно для обеспечения точности, надёжности и полезности сгенерированного контента. Доклад делала CEO и Co-Founder TitanML, стартапа, который в конце прошлого года привлёк 2.8 миллиона долларов на pre-seed и стремится оптимизировать и упростить процесс развёртывания LLM. Ещё один важный аспект для AI-продуктов будущего — это AI on Edge, то есть on-device, что обеспечивает ещё более низкую задержку, а также улучшает конфиденциальность данных. Исследователь из MistralAI представил две новые модели Ministral 3B и 8B а также подробно рассказал о технических деталях. Именно этим меня и привлекла конференция — аудитория в основном из технарей и доклады обходятся без bullshit bingo. Было ещё много других докладов, конференция длилась два дня. Но ещё раз я скорее всего не поехала бы снова оффлайн участвовать. Доклады качественные, но есть также онлайн-билет, а организация, особенно довольно агрессивный сотрудники Security, были так себе. Точно есть другие оффлайн-конференции, которые я могу порекомендовать больше! #conference #dataproduct @ainastia
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram Center
Telegram Center
Channel