Почему данные — главное технологическое преимущество... / 🤖 Датаист / Telegram Center

Почему данные — главное технологическое преимущество ИИ-стартапа Большинство стартапов терпят неудачу — это аксиома. Поэтому важно выстраивать понятный и быстрый процесс проверки продуктовых гипотез для максимизации вероятности запуска успешного продукта. Расскажу про свой кейс, когда мы выпустили продукт на рынок США и проиграли конкуренцию Google. В 2023 году я присоединился к стартапу Aola в роли технического директора. Aola — ИИ-ассистент для поиска досуга: интересных мест и событий — кафе, ресторанов, концертов, кино и многого другого. Команда была небольшой: React-разработчик на фронт, Python-разработчик на бэк, ML-инженер для создания рекомендательной системы и парт-тайм DevOps-инженер для инфраструктурных задач. Моя роль заключалась в управлении технической командой, написании кода ИИ-ассистента, сборе данных, а также запуске продукта на рынок с настроенной аналитикой. Главный вопрос, который стоял передо мной — где брать данные для рекомендательной системы? У меня было два варианта — использовать агрегаторы, например Yelp и Ticketmaster, или открытые источники. С агрегаторами всё оказалось не так просто: они не предоставляли доступа к семантическому поиску, искать места и события можно было только по городам и категориям. Это серьёзно осложняло желание масштабироваться, но мы решили попробовать этот вариант для проверки MVP на одном городе. Для запуска MVP я собрал данные из Атланты и настроил интеграцию с рекомендательной системой на базе коллаборативной фильтрации. Для реализации ИИ-ассистента я использовал Langchain (LangGraph появился чуть позже). ИИ-ассистент не только рекомендовал досуг, но мог поддерживать беседы на различные темы, связанные с досугом, и даже придумывать игры. Вот пара интересных статей наработки из которых я использовал в проекте: как использовать LLM в разговорных рекомендательных системах и фреймворк RecSys-Assistant-Human. Было интересно наблюдать, как наш ассистент общается с пользователями, знает все отзывы и детали о местах и предлагает гиперперсонализированные рекомендации на основе их предпочтений. Например, пользователю с ребёнком ассистент рекомендовал пойти в кафе с детской комнатой и посоветовал, какие развлечения понравятся ребёнку на основе отзывов. В первый день запуска мы собрали 1k+ пользователей из одного города, но понимали, что нужно масштабироваться на большее количество городов. Однако, ежедневно делать реплику всей базы агрегаторов было слишком затратно. Поэтому я переключился на сбор данных из источников с наличием семантического поиска. Я создал ИИ-агентов, которые формировали поисковые запросы в Google Places и Google Events, собирали подробную информацию о каждом месте и возвращали ИИ-ассистенту. В итоге нам не пришлось ежедневно собирать и обновлять данные по различным городам — мы научили агентов хорошо «гуглить» за пользователя. Мы запустили мобильное приложение, веб-версию, Telegram-бот и даже интеграцию в Instagram. В первые дни казалось, что мечта начинает сбываться, так как нашим приложением начали пользоваться 5k+ пользователей, но через несколько дней Gemini (на тот момент Bard) выкатил обновление, в котором он тоже научился обращаться к своим же сервисам за нужными данными для поиска досуга быстрее, чем мы. В итоге у нас не было конкурентного преимущества. Да, мы могли продолжать делать рекламу и привлекать больше пользователей, но мы были объективно хуже Google Bard, и конкурировать с ним было бессмысленно — у нас не было уникальных данных, к которым у нас был бы быстрый доступ. Этот опыт стал для меня хорошим уроком. Я на практике понял, что без уникальных данных или обученных ИИ-моделей на этих данных сложно иметь технологическое конкурентное преимущество. Данные сегодня — это действительно новая нефть. #кейсы

https://t.center/andre_dataist/131

1.2K viewsedited Nov 16 at 08:12

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily