Короч история длинная, сегодня будет первая серия 😁
Когда только в сбер устроился, дали задание поставить в прод рекомендательную систему для дочерней компании, которая с юл работает. Были артефакты, код для инференса, описание как поставить модель и сам отчет о построении. Выглядит все заебись 👍
Ну собственно раз отчет был, я не особо решил вдаваться в подробности, да и был он листов на 15 А4 😩 Наверное только его написание заняло минимум пару недель, читать его не особо хотелось и решил по максимуму сконцентрировать силы на самой задаче 💪
Как оказалось в рамках постановки в прод, должен был быть развернут postgres, и туда нужно было пролить таблицу с какимито эмбедингами по юр лицам. DS по какимто причинам подумал, что будет супер крутой идеей ее сохранить в формате csv, а каждое число хранить с точностью в 19 знаков. В итоге эта таблица оказалась 10млн х 50 в виде текста которая занимает 10Гб в не сжатом виде. Это нужно было выкачать из внутреннего контура и передать во внешнюю компанию. Как я это сделал я уж писать не буду, но я конечно удивлен, что никого после этого не уволили 😅
Кстати в сериализированном виде она весила 300мб всего
Все это отдавал разрабу в дочке (у меня прав не было) и писал ему какие команды запускать. Запустилось ли с первого раза? Конечно же нет (спасибо за охеренное качества код), в общем с разрабом неделю переписывались исправляя раз за разом все новые ошибки 😱
В итоге запустили рекомендашку раньше положенного, все как нужно. Но на следующий день разраб снова пишет
- Влад, а моделька то "твоя" чет хуевая, она же на сайте в риалтайм должна работать, а там время ответа 3сек. Да и то почти по всем клиентам рекомендашки одни и теже...
Ну собтвенно, я попробовал объяснить, что вообще модель то не моя, а девочки которая писала все с нами больше не работает, а ушла в яндекс. Столько мата в свой адрес я еще не слышал. Самый сок была фраза "вы что доверили кодить девушке???" 😂 ну собственно по итогу так и оказалось, не стоило 😅
Короч начал копать этот великолепный код с отчетом, чтобы понять что там не так и знаете что? После csv на 10гб я догадывался, что там будут странности, но вся дичь еще впереди...