ИИ и Работа с ним | NOTA

Канал
Технологии и приложения
Образование
Новости и СМИ
Русский
Логотип телеграм канала ИИ и Работа с ним | NOTA
@nota_aimlПродвигать
22
подписчика
46
ссылок
Ежедневный дайджест самых интересных статей про AI и машинное обучение. По всем вопросам: @nota_admin
К первому сообщению
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Разработка навыков для Алисы. Опыт работы с голосовыми интерфейсами, советы начинающим

Автор делится опытом создания детского новогоднего навыка для Алисы. Рассказывает особенности работы с голосовыми интерфейсами, дает советы начинающим разработчикам навыков. Описывает необходимые технические компоненты и ресурсы для создания навыка.

https://habr.com/ru/articles/434194/
————————————————————

2. Solving Number of Islands using Depth First Search (DFS)

Автор рассматривает задачу подсчета числа островов на карте, представленной в виде матрицы. Предлагает подход, заключающийся в использовании обхода графа в глубину (DFS) для выделения отдельных островов и подсчета их количества.

https://matthewaquino.medium.com/solving-number-of-islands-using-depth-first-search-dfs-35aff776f194
————————————————————

3. Machine learning and mobile development: how far can we get with smart gadgets?

Автор рассматривает возможности применения машинного обучения в мобильной разработке. Рассматривает текущее использование МО для персонализации, поиска, предсказательного анализа и повышения безопасности. Дает рекомендации разработчикам по использованию инструментов машинного обучения.

https://medium.com/celadon-soft/machine-learning-and-mobile-development-how-far-can-we-get-with-smart-gadgets-94a808872f19
————————————————————

Теги:

#nlp #algorithms #mobile
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Tesseract vs таблицы. Распознавание документов

Автор рассказывает о своем опыте использования Tesseract и openCV для распознавания текста и таблиц в PDF документах. Описывается алгоритм предварительной обработки изображения, выделения контуров, классификации объектов на текст и таблицы. Рассматривается представление таблиц в виде графа для последующей обработки.

https://habr.com/ru/articles/546824/
————————————————————

2. NLP in C# made easy with spaCy & Catalyst

В статье рассматривается использование библиотек spaCy и Catalyst для разработки решений NLP на C#. Описывается интеграция spaCy с C# через Catalyst, демонстрируются примеры работы с текстом, извлечения имен сущностей, классификации. Показана простота разработки NLP приложений на C# с использованием данных библиотек.

https://theolivenbaum.medium.com/nlp-in-c-made-easy-with-spacy-catalyst-acc93e005f3d
————————————————————

3. Building a Text Classifier with Spacy 3.0

Статья описывает процесс обучения классификатора текстов с использованием библиотеки SpaCy 3. Загружаются данные для обучения из репозитория ML-Datasets. Показана простая реализация классификатора с несколькими строками кода без предобученных векторов.

https://medium.com/analytics-vidhya/building-a-text-classifier-with-spacy-3-0-dd16e9979a
————————————————————

Теги:

#image_ai #nlp #csharp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Биномиальное распределение

Статья посвящена биномиальному распределению, которое применяется для описания случайных процессов с двумя исходами. Проводится симуляция бросков монетки на Python, результаты которой соответствуют теоретическому биномиальному распределению. Показано, что этот вид распределения можно использовать для моделирования различных процессов, например работы call-центра.

https://medium.com/nuances-of-programming/%D0%B1%D0%B8%D0%BD%D0%BE%D0%BC%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5-%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5-5171e049504e
————————————————————

2. Semi-Supervised Outlier Detection Using PyOD

Статья посвящена полуприсмотровой идентификации отклонений с использованием библиотеки PyOD. Рассматриваются четыре метода: KNN, KDE, PCA и Isolation Forest. Для сравнения их применены к данным о порозитете, проницаемости и плотности. Показано, что каждый метод имеет свои особенности выделения отклонений. В целом, статья наглядно демонстрирует работу различных моделей для полуприсмотровой идентификации отклонений.

https://ai.plainenglish.io/semi-supervised-outlier-detection-using-pyod-d1b5a7f73616
————————————————————

3. Role of Analytics in a Digital Business

Данная статья рассматривает роль аналитики в цифровых бизнесах. Цифровой бизнес - это использование цифровых технологий для переосмысления бизнес-процессов. Аналитика позволяет оптимизировать операции компании, понимать клиентов и увеличивать доходы посредством таргетированных предложений. Автор выделяет пять областей, где аналитика может сыграть большую роль: улучшение операций, понимание клиентов, прогнозирование, обеспечение безопасности и вовлечение сотрудников.

https://medium.com/hackernoon/role-of-analytics-in-a-digital-business-e4762b20272f
————————————————————

Теги:

#algorithms #python #career
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Неоплатонизм и информатика

Статья рассматривает использование идей Платона о существовании идеальных форм в информатике, машинном обучении и нейронных сетях. Автор сравнивает моделирование идеальных объектов на компьютере с концепцией Платона об абстрактном мире идей.

https://habr.com/ru/articles/669668/
————————————————————

2. Alexandru Agachi on “Handling Missing Data in Python/Pandas” at ODSC Europe 2018

Статья описывает доклад Александру Агачи о работе с пропущенными данными в Python/Pandas. Рассматриваются понятия пропущенных данных, методы их обработки. Отмечается, что это распространенная проблема в проектах на основе корпоративных данных.

https://odsc.medium.com/alexandru-agachi-on-handling-missing-data-in-python-pandas-at-odsc-europe-2018-c635dfc26185
————————————————————

3. Q&A Models for specific information extraction

Статья рассматривает использование трансформерных нейросетей для извлечения информации из текстов. Предлагаются различные подходы: регулярные выражения, entity detection, вопросно-ответные модели. Показано, что комбинация последнего подхода с регулярными выражениями дает наилучший результат.

https://towardsdatascience.com/q-a-models-for-specific-information-extraction-2a204f7f3521
————————————————————

Теги:

#algorithms #python #pandas #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Contact Center AI: третий участник в разговоре – это нормально

Статья рассказывает о технологии Contact Center AI (CCAI), которая позволяет создавать умных виртуальных операторов для колл-центров на базе платформы Dialogflow. CCAI понимает намерение клиента и может помогать живому оператору, предлагая различные подсказки. Технология успешно применяется такими компаниями как PolicyBazaar и Marks & Spencer для повышения удовлетворенности клиентов.

https://habr.com/ru/articles/489040
————————————————————

2. How RallyPoint and AWS are personalizing job recommendations to help military veterans and service providers transition back into civilian life using Amazon Personalize

Статья описывает, как компания RallyPoint, занимающаяся социальной сетью для ветеранов и военных, с помощью Amazon Personalize научилась давать более персонализированные рекомендации по работам, исходя из профиля и предпочтений пользователей. Это позволило увеличить релевантность рекомендаций на 35% и охват на 66x по сравнению с ранее используемой системой.

https://aws.amazon.com/ru/blogs/machine-learning/how-rallypoint-and-aws-are-personalizing-job-recommendations-to-help-military-veterans-and-service-providers-transition-back-into-civilian-life-using-amazon-personalize/
————————————————————

3. All You Need to Know About Python Function Arguments

Статья рассказывает о функциях в Python и их аргументах. Рассматриваются позиционные и именованные аргументы, а также способы задавать переменное количество аргументов с помощью *args и **kwargs. Также описывается аннотирование типов аргументов и способ создания функций на основе других функций с фиксированными аргументами с помощью partial.

https://python.plainenglish.io/all-you-need-to-know-python-function-arguments-67b9e4ca2baf
————————————————————

Теги:

#nlp #devblog #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Программы пишут программы, или стоит ли разработчикам осваивать новые профессии

Статья рассматривает вопрос о том, насколько реальна угроза потери работы программистами в связи с развитием нейронных сетей, способных генерировать программный код. Автор приходит к выводу, что современные ИИ-системы умеют переводить текстовое описание задачи в код, но пока не могут полноценно заменить человека-программиста при создании промышленного ПО.

https://habr.com/ru/articles/717874/
————————————————————

2. Psst… Time To Jack Up Your Dumb Chat Bot Brain Using Wit.ai

Статья рассказывает о том, как с помощью сервиса Wit.ai научить чат-бота, работающего через Messenger Facebook, понимать естественный язык и уметь извлекать смысл из сообщений. Демонстрируется процесс обучения бота распознавать локации, категории и сентименты для получения погодных прогнозов и картинок на заданные темы.

https://chatbotsmagazine.com/psst-time-to-jack-up-your-dumb-chat-bot-brain-using-wit-ai-aada04e8a303
————————————————————

3. Everything you need to know about Named Entity Recognition!

Статья раскрывает тему распознавания именованных сущностей (Named Entity Recognition, NER) - технологии, позволяющей выделять в тексте имена сущностей таких как люди, организации и места. Рассматриваются подходы к решению задачи NER с помощью классификации, машинного обучения и глубоких нейронных сетей. Описываются основные типы сущностей и метрики оценки.

https://umagunturi789.medium.com/everything-you-need-to-know-about-named-entity-recognition-2a136f38c08f
————————————————————

Теги:

#career #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Книга «40 алгоритмов, которые должен знать каждый программист на Python»

Статья рекомендует книгу, которая поможет программистам на Python освоить 40 важных алгоритмов, таких как поиск, сортировка, машинное обучение и другие. Книга подходит опытным программистам, желающим углубить свои знания об алгоритмах и их математических основах.

https://habr.com/ru/companies/piter/articles/719228/
————————————————————

2. Multithreading in Python

Статья рассматривает параллельное выполнение кода (мультив threads) в Python с помощью модуля threading. Приводится пример создания и запуска двух потоков для вычисления квадрата и куба числа. Описывается работа методов start(), join() для запуска и синхронизации потоков.

https://medium.com/@lionelchanlongchiu1/multithreading-in-python-a859cdc15b11
————————————————————

3. Learn and Play with TensorFlow.js Part 2: Binary Classifier

Вторая часть по обучению на TensorFlow.js. Рассматривается задача классификации данных с двумя классами с помощью нейронной сети с двумя слоями. Приводится код генерации тестовых данных, инициализации, обучения и тестирования модели, а также визуализация результатов.

https://medium.com/ailab-telu/learn-and-play-with-tensorflow-js-part-2-9b3be5ba7c8b
————————————————————

Теги:

#python #algorithms #tensorflow
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Inductive bias и нейронные сети

В статье рассматривается понятие inductive bias, его значение для машинного обучения. Приводятся примеры использования inductive bias в линейной регрессии и сверточных нейронных сетях. Также затрагивается успех архитектуры Image Transformer, связанный с этим понятием.

https://habr.com/ru/articles/591779/
————————————————————

2. Make Your Personal GPT-3.5 Turbo Application!

В статье разбирается код для создания персонального приложения на основе модели GPT-3.5 Turbo от OpenAI. Показано использование библиотеки OpenAI для взаимодействия с API, создание класса для работы с API, функция генерации ответов и построение GUI-интерфейса. Предоставлен полный пример кода приложения.

https://medium.com/thelatestai/make-your-personal-gpt-3-5-turbo-application-ece86d685d5f
————————————————————

3. A Little Code Optimisation Goes a Long Way

В статье рассматривается важность оптимизации кода даже на этапе построения прототипов. Приведен пример вычисления суммарной прибыли для данных о продажах, где показано ускорение скорости вычислений за счет более эффективного использования pandas и перехода на NumPy. Автор подчеркивает, что даже небольшие улучшения в написании кода могут значительно сократить технический долг.

https://towardsdatascience.com/a-little-code-optimisation-goes-a-long-way-91f92ff9f468
————————————————————

Теги:

#algorithms #gpt #python #pandas
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Microsoft внедрит в обучение ИИ «алгоритм мышления»

Компания Майкрософт представила новый метод обучения искусственного интеллекта под названием «Алгоритм мышления» (AoT), цель которого сделать языковые модели более похожими на человеческий мозг. AoT направляет модель по оптимальному пути решения задачи, используя контекстное обучение и систематический подход. Исследователи утверждают, что модель приобретает лучшую «интуицию» по сравнению с другими подходами.

https://habr.com/ru/news/757598/
————————————————————

2. An Intermediate Guide to RegEx in Python

Статья посвящена регулярным выражениям в Python на промежуточном уровне. Рассматриваются такие темы как сырые строки, группировка, захватывающие и незахватывающие группы, методы объекта совпадения. Приводятся примеры использования важных возможностей группировки в регвыр: индивидуальный доступ к группам, динамические ссылки, нахождение всех вхождений. Также описаны различия функций для поиска совпадений.

https://betterprogramming.pub/an-intermediate-users-guide-to-regex-533bf5a67c03
————————————————————

3. Mastering Optimizers with Tensorflow: A Deep Dive Into Efficient Model Training

Статья посвящена оптимизаторам в Тензорфлоу, которые играют ключевую роль в обучении нейронных сетей. Рассматриваются популярные оптимизаторы такие как SGD, Adam, RMSprop и другие. Описываются их характеристики, преимущества, недостатки. Дается сравнение оптимизаторов и рекомендации по их выбору в зависимости от задачи, объема данных, сложности модели. Представлены примеры кода для работы с оптимизаторами в Тензорфлоу.

https://python.plainenglish.io/mastering-optimizers-with-tensorflow-a-deep-dive-into-efficient-model-training-81c58c630ef1
————————————————————

Теги:

#devblog #python #tensorflow
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Немного примеров match/case в Python 3.10

Статья рассказывает о новой возможности Python 3.10 - операторе сопоставления с шаблонами match/case. Приводятся примеры использования этого оператора для сравнения переменных со значениями и обработки данных, разделенных разделителем. Оператор позволяет упростить написание кода и сделать его более читаемым по сравнению с предыдущими вариантами на if/else.

https://habr.com/ru/articles/585216/
————————————————————

2. A Leaders Guide to Navigating the Complex Landscape of Software Engineering

Статья советует руководителям ПО сосредоточиться на таких аспектах как карьерный рост, баланс работы и личной жизни, обучение сотрудников, признание заслуг, командная работа и др. Это позволит создать мотивирующую среду, удерживающую талантливых специалистов и повышающую эффективность разработки.

https://medium.com/@mymail01/a-leaders-guide-to-navigating-the-complex-landscape-of-software-engineering-91c8551047fb
————————————————————

3. How to mitigate customer pain points through implementation of digital transformation (DX) technology

Статья рассматривает, как технологии цифровой трансформации помогают снизить больные точки покупателей на разных этапах ритейла: прогнозирование спроса, управление запасами, персонализированная реклама, оплата без очереди, экологичная упаковка. Приводятся примеры использования таких технологий компаниями Amazon и Lotte Mart.

https://aws.amazon.com/ru/blogs/industries/how-to-mitigate-customer-pain-points-through-implementation-of-digital-transformation-dx-technology/
————————————————————

Теги:

#python #career #devblog
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Встречаем ТВ Станции — новые устройства, которые объединяют технологии телевизоров и умных колонок

Статья посвящена новым устройствам Яндекса — ТВ Станциям и ТВ Станциям Про. Это телевизоры со встроенными голосовыми помощниками Алиса. Рассматриваются особенности дизайна, разработки алгоритмов распознавания речи, аппаратных и программных решений. Отмечаются преимущества совмещения функционала телевизора и умной колонки. Приводятся технические характеристики устройств.

https://habr.com/ru/articles/752984
————————————————————

2. Dockerize & Deploy your Machine Learning model

Статья посвящена использованию Docker для развёртывания обученных моделей машинного обучения. Рассматриваются основные преимущества Docker для этой цели - изоляция, портабельность, простота развёртывания. Приводится простой пример создания docker-образа с обученной нейросетью и её развёртывания.

https://medium.com/@sahilangra/dockerize-deploy-your-machine-learning-model-bc6c5b8da19f
————————————————————

3. Jupyter Notebook Refactoring Series — Part 1

Статья посвящена реструктуризации notebook-файлов в Jupyter Notebook для большей читабельности и поддерживаемости кода. Рассматриваются проблемы, возникающие при работе с большими монолитными файлами. Предлагаются различные приёмы разделения notebooks на независимые части и модули для улучшения организации кода.

https://itnext.io/jupyter-notebook-refactoring-series-part-1-adff1b44dfdb
————————————————————

Теги:

#devblog #nlp #devops #jupyter
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Как мы сделали распознавание речи нескольких говорящих

Статья описывает разработку системы распознавания одновременной речи нескольких говорящих. Использован подход сначала разделяющий входной аудиосигнал на отдельные каналы для каждого говорящего с помощью нейронной сети Sepformer, а затем распознающий каждый канал. Данные объединяются обратно с помощью классификатора каналов. Представлена архитектура системы и результаты ее использования.

https://habr.com/ru/articles/684228
————————————————————

2. Hierarchical Clustering Algorithm Tutorial in Python

Статья посвящена иерархической кластеризации - методу группировки данных, при котором объекты объединяются в иерархическую структуру дерева. Алгоритм реализован на языке Python с использованием библиотеки SciPy. Clustering позволяет сгруппировать объекты по степени их схожести, что полезно для анализа и визуализации данных.

https://medium.com/accel-ai/hierarchical-clustering-algorithm-tutorial-in-python-198b54dde2a9
————————————————————

3. Combine datasets using Pandas merge(), join(), concat() and append()

Статья рассказывает о функциях объединения данных в Pandas: merge(), join(), concat() и append(). Pandas - это библиотека для работы с данными и анализа данных в Python. Эти функции позволяют соединять несколько DataFrames (таблиц данных) в один, например по общему индексу или столбцу. Это необходимо при объединении нескольких источников данных в один общий dataframe для последующего анализа.

https://pub.towardsai.net/combine-datasets-using-pandas-merge-join-concat-and-append-442f839ba854
————————————————————

Теги:

#devblog #nlp #python #algorithms #pandas
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Шаг в астрофизику с помощью Python

В статье рассказывается о том, почему язык Python стал важным инструментом для астрофизиков. Описываются необходимые библиотеки для моделирования космических объектов и явлений, такие как NumPy и Matplotlib. Приводятся примеры моделирования орбиты планет, движения звезд в галактике, характеристик черных дыр и нейтронных звезд с использованием Python.

https://habr.com/ru/articles/758526
————————————————————

2. Deep dive into the basics of Gini Impurity in Decision Trees with math Intuition

В статье рассматривается показатель Gini Impurity, который используется в деревьях решений для классификации данных. Описывается, как измеряется разнообразие в выборке и рассчитывается Gini Impurity. Дается пример расчета показателя для ирисовых данных и построения дерева решений с использованием этого показателя в библиотеке scikit-learn.

https://medium.com/poli-data/deep-dive-into-the-basics-of-gini-impurity-in-decision-trees-with-math-intuition-46c721d4aaec
————————————————————

3. How does one contribute to Serenata de Amor Operation?

В статье рассказывается о проекте Serenata de Amor - неприбыльной организации, которая борется с мошенничеством и коррупцией в Бразилии путем анализа больших данных государственных закупок. Описывается, как любой желающий может внести свой вклад в этот проект, предоставляя свой опыт в области программирования, анализа данных, визуализации или исследований.

https://medium.com/serenata/how-does-one-contribute-to-serenata-de-amor-operation-36e3e7b38207
————————————————————

Теги:

#python #algorithms #devblog
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Голосовые приложения: миллиардный рынок, который в России не замечают

В статье рассматривается быстроразвивающийся рынок голосовых приложений. Отмечается, что число устройств с голосовыми ассистентами превышает число смартфонов, однако контента для них пока недостаточно. Приводятся статистические данные о росте использования голосовых помощников. Автор констатирует недооценку этого рынка в России и прогнозирует его дальнейшее стремительное развитие.

https://habr.com/ru/articles/474516/
————————————————————

2. How to jumpstart your career in data science?

В статье рассматриваются способы начать карьеру в области data science. Рекомендуется мотивировать себя чтением блогов и прослушиванием подкастов, начинать с небольших проектов для накопления опыта, решать реальные задачи, размещать код на GitHub. Указывается на важность поиска поддержки в случае трудностей на платформах Stack Overflow, GitHub, Quora.

https://medium.com/@aishuraniman/how-to-jumpstart-your-career-in-data-science-d28f24e96298
————————————————————

3. Super Easy Text Classification by Sentence Vector with sister (library)

В статье описывается простой подход к классификации текстов, основанный на представлении предложений в виде векторов с помощью библиотеки sister. Приводится код на Python, реализующий загрузку данных, получение векторов предложений, обучение модели SVM и оценку точности классификации на наборе данных IMDb. Отмечается, что классификация выполняется всего за 27 строчек кода.

https://towardsdatascience.com/super-easy-text-classification-by-sentence-vector-with-sister-library-843eabf962ae
————————————————————

Теги:

#nlp #career #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Умножение матриц: эффективная реализация шаг за шагом

В статье рассматривается эффективная реализация алгоритма умножения матриц на языке C++. Автор последовательно оптимизирует алгоритм, шаг за шагом уменьшая количество обращений к памяти. Представлены 5 вариантов реализации с описанием каждого этапа оптимизации. Достигается до 80% от максимально возможной производительности за счёт использования векторизации, микро- и макроядер.

https://habr.com/ru/articles/359272/
————————————————————

2. I Wish I Knew These 12 Algorithms and Their Applications Before the System Design Interview

Статья посвящена 12 алгоритмам, знание которых полезно при подготовке к собеседованию по проектированию систем. Автор перечисляет такие алгоритмы как сортировка, хеширование, динамическое программирование и деревья поиска и кратко описывает их применение при решении задач системного дизайна.

https://levelup.gitconnected.com/i-wish-i-knew-these-12-algorithms-and-their-applications-before-the-system-design-interview-5fb7fa8b1177
————————————————————

3. Calculate DFT and theoretical spread rate estimation in Phyton

Статья посвящена расчёту дискретного преобразования Фурье и теоретической оценке скорости распространения в языке Python. Автор описывает два алгоритма: быстрое дискретное преобразование Фурье и теоретическую оценку скорости распространения краски. Представлен пример кода на Python для вычисления DFT и расчёта скорости.

https://syahmisaadon.medium.com/calculate-dft-and-theoretical-spread-rate-estimation-in-phyton-4b53e30df1b3
————————————————————

Теги:

#cplusplus #algorithms #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Шесть степеней свободы: 3D object detection и не только

Статья рассматривает задачу определения положения 3D объектов на изображении. Рассматриваются основные этапы решения этой задачи: получение 3D модели объекта, детекция ключевых точек на изображении, применение алгоритма PnP для нахождения параметров преобразования из 3D в 2D.

https://habr.com/ru/companies/ods/articles/522836/
————————————————————

2. Topic Modeling with BERTopic

Статья посвящена тематическому моделированию (topic modeling) с использованием библиотеки BERTopic для языка Python. Рассматривается процесс подготовки текстовых данных, выбора количества топиков и интерпретация полученных результатов.

https://medium.com/cmotions/topic-modeling-with-bertopic-71834519b956
————————————————————

3. Solve the Project Euler Problems in Python — Introduction and Problems 1–3

Статья посвящена разбору первых трех задач сайта Project Euler и их решению на Python. Первая задача касается нахождения суммы всех кратных 3 и 5 меньше 1000. Вторая - суммы четных чисел в ряде Фибоначчи меньше 4 млн. Третья задача находит наибольший простой делитель числа 600851475143.

https://levelup.gitconnected.com/solve-and-understand-the-project-euler-problems-in-python-introduction-and-problems-1-3-32625d1633f7
————————————————————

Теги:

#image_ai #python #nlp #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Небанальные правила чистого Python. Часть 1

В статье рассматриваются необычные правила чистого кода на Python, такие как имена функций, начинающихся с "_", использование type hints и doctest, размещение приватных методов в классах. Также описываются правила для работы с числами, переменными, оформлением docstring.

https://habr.com/ru/articles/693668/
————————————————————

2. Pins a hidden MLOps Champion to version your Data & Models

В статье рассматривается инструмент для версионирования данных и моделей machine learning - pins. Описывается структура файлов и метаданных при использовании pins. Показано как получать метаданные о версиях данных в Pandas DataFrame. Также объясняется как версионировать не только данные, но и модели с помощью библиотеки vetiver. Делается сравнение pins и dvc, и дается рекомендация использовать pins для проще случаев на Python и R.

https://medium.com/@michaelpolonskij/pins-a-hidden-mlops-champion-to-version-your-data-models-e0393a2f7d1d
————————————————————

3. Mastering the Craft: Best Practices for Writing Clean and Efficient Code

В статье перечислены лучшие практики для написания чистого и эффективного кода: делать код понятным и читаемым, модульный код с использованием функций, комментарии, соблюдение принципа DRY, оптимизация производительности, отладка и тестирование, code review.

https://medium.com/@mananshah3654/mastering-the-craft-best-practices-for-writing-clean-and-efficient-code-91a7844da711
————————————————————

Теги:

#python #pandas #rlang
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Каким должен быть Feature Store, чтобы оптимизировать работу с ML-моделями

Статья рассказывает о том, как оптимизировать работу с данными для машинного обучения с помощью Feature Store. Рассматриваются задачи Feature Store, необходимость технологии для разных компаний, история ее развития и основные требования к таким платформам со стороны специалистов по машинному обучению.

https://habr.com/ru/articles/702416
————————————————————

2. The Correct Pipeline for building a chatbot in Python Programming

Статья посвящена построению чат-ботов на Python. Рассматривается оптимальная последовательность действий (pipeline) для создания чат-бота: подготовка данных, их предобработка, обучение модели, тестирование и выпуск готового решения.

https://makemecode.com/the-correct-pipeline-for-building-a-chatbot-in-python-programming-636a025a2604
————————————————————

3. The future of air travel retailing

Статья посвящена будущему розничных продаж воздушных перевозок. Рассматривается развитие экосистемы туристических услуг и роль авиакомпаний и онлайн-сервисов в продаже билетов. Описываются возможности, которые открывает AWS для инноваций авиаперевозчиков и турагентств в цифровизации продаж.

https://aws.amazon.com/ru/blogs/industries/the-future-of-air-travel-retailing/
————————————————————

Теги:

#devblog #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Смешение уровней абстракции закладывает бомбу в основание вашего проекта

Смешение требований разных уровней абстракции при проектировании системы приводит к проблемам. Нужно четко разделить уровень требований от уровня реализации, чтобы обеспечить гибкость и поддерживаемость. Проектировать нужно по функциональным компонентам, а не сразу на низком техническом уровне.

https://habr.com/ru/articles/515206/
————————————————————

2. Walmart — Store Sales Forecasting

Статья описывает проект прогнозирования продаж магазинов сети Walmart с помощью машинного обучения. Для решения используются деревья принятия решений и случайный лес. Разбираются набор данных, предобработка, построение моделей, тестирование гиперпараметров. Лучшей моделью стал случайный лес с определенными параметрами.

https://medium.com/@sergioalves94/walmart-store-sales-forecasting-4ffebbbf650f
————————————————————

3. OpenAI API: Fine-Tuned Models vs. Chat Completion — A Case Study

Статья сравнивает использование готовых Chat Completion моделей OpenAI и фин-тюнинг собственных моделей. Автор провел эксперимент по фин-тюнингу модели для генерации кода и сравнил качество, стоимость и скорость работы с Chat Completion. Фин-тюнинг позволил получить более качественные, но и более дорогие в обучении модели.

https://betterprogramming.pub/openai-api-fine-tuned-models-vs-chat-completion-a-case-study-e3774fadc8c7
————————————————————

Теги:

#architecture #devblog #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Slovo и русский жестовый язык

В статье описывается процесс сбора и обработки большого датасета на русском жестовом языке для задачи распознавания жестов. Авторы рассказывают об особенностях жестового языка, привлечении экспертов, этапах сбора и обработки данных, обучении нейросетей. Представлены результаты распознавания и демонстрация работы приложения.

https://habr.com/ru/companies/sberdevices/articles/737018/
————————————————————

2. A Human-Friendly Introduction To Machine Learning

В статье дается простое пояснение основных концепций машинного обучения для неспециалистов. Автор рассказывает о таких понятиях как супервизорное и несупервизорное обучение, регрессия, классификация, кластеризация, на простых примерах демонстрируя суть методов обучения машин.

https://medium.com/latinxinai/a-human-friendly-introduction-to-machine-learning-c02c72925660
————————————————————

3. Soil Based Zone Generation at Pattern Ag

Статья посвящена генерации зон на полях для сельскохозяйственных нужд с учетом типов почв и их свойств. Автор описывает подход компании Pattern Ag к анализу данных о почвах для определения оптимальных границ зон и повышения урожайности.

https://medium.com/pattern-ag-tech-blog/soil-based-zone-generation-for-pattern-ag-sample-planning-37d360a6a116
————————————————————

Теги:

#nlp #algorithms #devblog
Ещё