ИИ и Работа с ним | NOTA

#algorithms
Канал
Технологии и приложения
Образование
Новости и СМИ
Русский
Логотип телеграм канала ИИ и Работа с ним | NOTA
@nota_aimlПродвигать
22
подписчика
46
ссылок
Ежедневный дайджест самых интересных статей про AI и машинное обучение. По всем вопросам: @nota_admin
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Когда параллелизм превосходит конкурентность

В статье обсуждается разница между параллелизмом и конкурентностью в программировании. Автор объясняет, что параллелизм подходит для задач, которые можно разделить на независимые части и выполнять одновременно, в то время как конкурентность решает одну задачу множеством процессов, требующих синхронизации. Приводится примеры из практики, плюсы и минусы каждого подхода, а также рекомендации, когда и какой подход более предпочтителен для оптимизации производительности.

https://medium.com/nuances-of-programming/%D0%BA%D0%BE%D0%B3%D0%B4%D0%B0-%D0%BF%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC-%D0%BF%D1%80%D0%B5%D0%B2%D0%BE%D1%81%D1%85%D0%BE%D0%B4%D0%B8%D1%82-%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D0%B5%D0%BD%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C-c846c8f59897
————————————————————

2. LeetCode Problem 1757 Recyclable and Low Fat Products — LeetCode: 30 Days of Pandas

Эта статья является частью 30-дневного учебного плана по Pandas на LeetCode и рассматривает задачу 1757 "Recyclable and Low Fat Products". Автор предоставляет подробное решение задачи на языке Python с использованием библиотеки Pandas. Задача заключается в выявлении продуктов, которые одновременно относятся к категории низкожирных и подлежащих переработке. Решение включает фильтрацию данных и демонстрацию работы с DataFrame для получения необходимого результата.

https://medium.com/@robertsevan/leetcode-problem-title-leetcode-30-days-of-pandas-447c42fca341
————————————————————

3. Guide to R and Python in a Single Jupyter Notebook

Статья представляет собой руководство по использованию языков R и Python в одной Jupyter тетради, показывая, как можно использовать оба языка одновременно для анализа данных. Описывается, как импортировать функции и наборы данных из R в Jupyter Notebook на Python, позволяя выполнять линейную и полиномиальную регрессию, работать с моделями и визуализировать данные. Подробно рассматривается процесс взаимодействия между двумя языками, включая импорт функций, работы с массивами и представлением данных, а также получение и анализ результатов.

https://towardsdatascience.com/guide-to-r-and-python-in-a-single-jupyter-notebook-ff12532eb3ba
————————————————————

Теги:

#algorithms #python #rlang #jupyter
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Дизайн классов: что такое хорошо?

Автор статьи делится опытом проектирования классов и предлагает советы, которые помогут избегать типичных ошибок. Рассматриваются вопросы атомарности контракта классов, необходимости чистоты кода и управления зависимостями между классами, а также вреда от злоупотребления шаблонами проектирования. Статья акцентирует внимание на важности простоты и понятности кода, что облегчает его поддержку и развитие, и предлагает конкретные методики для достижения этих целей.

https://habr.com/ru/companies/dataart/articles/443756/
————————————————————

2. Named Entity Recognition Program Evaluations

Статья представляет обзор оценки моделей распознавания именованных сущностей (NER) для коммерческих NLP-продуктов. Команда Anno.Ai провела анализ NER-сервисов от разных провайдеров, включая AWS Comprehend и Microsoft Azure Cognitive Services. Оценка базировалась на наборе данных Ontonotes и включала сравнение точности, полноты и F1-меры. Финч выделилась среди других сервисов за счет последовательной производительности и расширенных возможностей обогащения данных.

https://anno-ai.medium.com/anno-ai-people-places-things-named-entity-recognition-9c1bb52c2ba7
————————————————————

3. A Thorough Intro to Pandas for Data Analysis II

Статья является продолжением вводного руководства по использованию Pandas для анализа данных. В ней подробно рассматриваются методы инспекции, фильтрации и редактирования данных с использованием структур данных Series и DataFrame. Объясняются функции для импорта и экспорта данных, методы для первичного осмотра набора данных, а также детально описываются способы выбора и фильтрации частей данных с применением оператора индексации, loc и iloc. Автор делится советами и лучшими практиками для работы с библиотекой Pandas.

https://battox.medium.com/a-thorough-intro-to-pandas-for-data-analysis-ii-d09cbbf67cd
————————————————————

Теги:

#algorithms #nlp #pandas
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Теория счастья. Статистика, как научный способ чего-либо не знать

Статья развенчивает мифы о статистике, рассматривая её как инструмент понимания случайных процессов и непредсказуемости жизни. Автор делится мыслями из своей книги, освещая важность теории вероятностей и математической статистики. Читателям предлагается новый взгляд на статистику не как на средство манипуляции, а как на язык для рассуждения о неизвестных случайных процессах с вычислимой мерой уверенности в получаемых данных.

https://habr.com/ru/articles/435812/
————————————————————

2. Spatial Visualizations and Analysis in Python with Folium

Статья посвящена использованию библиотеки Folium для визуализации и анализа пространственных данных в Python. Автор описывает, как с помощью Folium можно создавать интерактивные карты в Jupyter Notebook, что позволяет лучше понимать и анализировать геоданные. Рассматриваются преимущества использования карт для наглядности данных, а также методы создания тепловых карт и временных динамических визуализаций. Представлены примеры кода и результаты анализа данных такси в Нью-Йорке, что подчеркивает потенциал Folium для решения реальных задач.

https://towardsdatascience.com/data-101s-spatial-visualizations-and-analysis-in-python-with-folium-39730da2adf
————————————————————

3. Algorithm Test Engineering: Exploratory Job Analysis

В статье рассматривается процесс тестирования алгоритмов, включая определение их пригодности, соответствия данным, оценку альтернатив и адаптацию к конкретным задачам и системам. Автор делится опытом анализа и тестирования классических алгоритмов - бинарного поиска и алгоритма Левенштейна для расчёта редакционного расстояния. Представлены мысли о важности понимания алгоритмов и данных, к которым они применяются, а также о разработке и запуске экспериментов для изучения и улучшения алгоритмов.

https://levelup.gitconnected.com/algorithm-test-engineering-exploratory-job-analysis-1048b4344e21
————————————————————

Теги:

#devblog #python #data #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Фотограф попросил удалить свои работы из набора обучающих данных LAION, в ответ ему выставили счёт на €887

Статья повествует о конфликте немецкого фотографа Роберта Кнешке с организацией LAION по поводу использования его фотографий в наборе данных для обучения AI. Кнешке обнаружил свои работы в датасете LAION-5B и потребовал их удаления, но получил в ответ счёт на €887. В реакции на угрозу судебных исков фотограф решил подать иск против LAION, мотивируя свои действия необходимостью защиты авторских прав в эпоху AI.

https://habr.com/ru/news/732364/
————————————————————

2. Getting Started with Method Chaining in Object-Oriented Programming

Введение в использование цепочек вызовов методов в объектно-ориентированном программировании. Статья разъясняет, как методы можно вызывать последовательно, используя один объект, что упрощает код и делает его более читаемым. Приводятся примеры на JavaScript, PHP и Python. Показано, как создать класс, добавить методы и использовать их в цепочке для достижения желаемого результата. Статья подходит как для начинающих, так и для опытных программистов, желающих улучшить навыки написания более эффективного и чистого кода.

https://medium.com/@hendurhance/getting-started-with-method-chaining-in-object-oriented-programming-b3fd60bffe1e
————————————————————

3. The unpleasant work of Data Exploration

Статья затрагивает трудности исследования данных в проектах по Data Science и предлагает решение с помощью библиотеки Streamlit. Автор делится опытом использования Streamlit для упрощения процесса анализа данных, создания интерактивных дэшбордов и визуализации без необходимости быть full stack разработчиком. Предложенный подход помогает не только упростить анализ данных, но и делиться наработками с коллегами, повышая прозрачность и вовлекаемость команды в проект.

https://towardsdatascience.com/the-unpleasant-work-of-data-exploration-e9dde7180f5c
————————————————————

Теги:

#devblog #python #algorithms #data
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. На пути к построению графика

Статья посвящена анализу проблем операционного мониторинга с точки зрения аналитики и визуализации данных. Автор делится наблюдениями и подходами к анализу метрик, детализируя фундаментальные ошибки при работе с накопительными счетчиками и агрегацией данных. Особое внимание уделено критике использования арифметического среднего и важности понимания типов метрик. Статья обогащена примерами из практики использования инструментов мониторинга, таких как Grafana, Prometheus и InfluxDB, и рекомендациями по оптимизации процесса визуализации данных.

https://habr.com/ru/articles/490430
————————————————————

2. Finding Customers among Population Data with Machine Learning

Проект поиска потенциальных клиентов среди данных о населении с помощью машинного обучения. Статья описывает использование необученного и обученного машинного обучения для сегментации клиентов немецкой почтовой компании. Автор применяет PCA и кластеризацию K-means для выявления сегментов населения, наиболее вероятно являющихся клиентами, и использует различные модели обученного машинного обучения для предсказания результатов маркетинговой кампании. Раскрыты этапы предварительной обработки данных, подбора моделей и оценки их эффективности.

https://chinnaporn-chinotaikul.medium.com/finding-customers-among-population-data-with-machine-learning-a8aaeb047f42
————————————————————

3. Python List (Part I). smart and simple

Статья является началом серии обучающих материалов о списках в Python. Описывается, что такое список, его отличия от массивов в других языках программирования и его мощные возможности. Автор обсуждает важные концепции, такие как изменяемость (mutability), индексирование и срезы (indexing and slicing), функции работы со списками и ситуации использования списков в приложениях. Также затрагиваются темы эффективного использования циклов for и while для итерации по спискам, встроенные функции Python, такие как len, и различные подходы к итерации.

https://articles-dsml.medium.com/python-list-part-i-8baa9b2c4b5d
————————————————————

Теги:

#data #algorithms #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Узнаю тебя из тысячи: новый алгоритм способен распознать дипфейк по отражению в глазах

Новый алгоритм из Университета штата Нью-Йорк в Буффало позволяет распознавать дипфейки, анализируя отражения в глазах на изображениях. Авторы статьи описывают, как отсутствие "физических ограничений" в алгоритмах создания дипфейков приводит к различиям в отражениях между настоящими и искусственными изображениями. Представленный метод демонстрирует высокую точность в 94% при определении поддельных изображений в идеальных условиях.

https://habr.com/ru/articles/546714
————————————————————

2. Introduction to numpy for beginners

Статья является вводным руководством по библиотеке NumPy для начинающих. Объясняет основные концепции и операции, такие как создание массивов, индексация, матричные операции, использование случайных чисел и атрибуты массивов. NumPy представляет собой ключевую библиотеку для вычислений в Python и необходима для работы в области машинного обучения и анализа данных. Автор демонстрирует примеры кода и предоставляет советы по использованию функций NumPy для улучшения аналитических навыков.

https://medium.com/analytics-vidhya/introduction-to-numpy-for-beginners-9a0db6bc2a07
————————————————————

3. Language Detection in Python using fasttext and fastAPI

Статья рассказывает о создании инструмента для определения языка текста с помощью библиотеки fasttext и фреймворка FastAPI в Python. Автор делится личным опытом извлечения данных из PDF-файлов на различных языках и поиска подходящего инструмента для их распознавания. Описывается процесс очистки текста и настройка локального API для его использования в других приложениях. Fasttext выделяется благодаря своей скорости и бесплатности, а FastAPI предпочтен для создания API из-за масштабируемости и асинхронности.

https://medium.com/@hrushikesh.dhumal/language-detection-in-python-using-fasttext-and-fastapi-a52d0f0d779a
————————————————————

Теги:

#algorithms #python #numpy #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Основы современного искусственного интеллекта: как он работает, и уничтожит ли наше общество уже в этом году?

Статья разъясняет, что такое искусственный интеллект (ИИ), разницу между машинным обучением и глубоким обучением, их влияние на общество. Автор разбирает концепции сильного и слабого ИИ, демистифицирует популярные заблуждения и описывает, какие прорывы в технологии ИИ уже достигнуты. В статье также обсуждаются потенциальные проблемы и перспективы развития ИИ.

https://habr.com/ru/articles/451214/
————————————————————

2. PERMUTATION IMPORTANCE AS A SUCCINCT MODEL SUMMARY

Статья обсуждает метод "Permutation Importance" для выявления значимости признаков в моделях машинного обучения. Описывается, как перестановка данных влияет на точность предсказаний модели, что помогает понять важность каждого признака. Автор рассказывает об использовании библиотеки Python Eli5 для вычисления этой метрики и о том, как интерпретировать результаты. Этот подход позволяет повысить "объясняемость" машинного обучения.

https://medium.com/@funboy.ea/permutation-importance-as-a-succinct-model-summary-dd88ff3fbe1d
————————————————————

3. Decoding Football Teams: Unveiling Playing Styles Through Clustering Analysis

Анализ стилей игры футбольных команд через кластерный анализ. Используя метод K-средних, авторы статьи выделяют шесть уникальных тактических подходов команд Английской Премьер-лиги и Ла Лиги сезона 2019–2020. Данные о владении мячом, соотношении коротких пасов к длинным, и разнице ожидаемых голов без пенальти (npxGD) позволили идентифицировать различные тактические предпочтения. Авторы обсуждают важность выбора оптимального количества кластеров и как это влияет на анализ игровых стилей.

https://amyrmahdy.medium.com/decoding-football-teams-unveiling-playing-styles-through-clustering-analysis-f172979c7647
————————————————————

Теги:

#algorithms #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. CatBoost, XGBoost и выразительная способность решающих деревьев

Статья исследует алгоритмы машинного обучения CatBoost и XGBoost, основанные на решающих деревьях. Обсуждаются преимущества и особенности этих алгоритмов, включая упорядоченное target-кодирование, использование решающих таблиц и возможность работы с текстовыми признаками. Автор проводит собственное исследование и эксперименты, демонстрируя, что ансамбли деревьев ограниченной глубины не являются универсальными аппроксиматорами.

https://habr.com/ru/articles/645887
————————————————————

2. Powerful Machine Learning Resources: What Google Colab Is and How to Use It

Статья рассказывает о Google Colab, бесплатной облачной платформе для машинного обучения, работающей на основе Jupyter notebooks. Colab предлагает использование GPU для тяжелых вычислений и интеграцию с Google Drive. Автор объясняет, как начать работу с Colab и для каких проектов его можно использовать, включая обучение моделей на изображениях, текстах и звуках.

https://medium.com/imagescv/powerful-machine-learning-resources-what-google-colab-is-and-how-to-use-it-195399ae6b6d
————————————————————

3. How to choose a table index for your SQL database

Статья предназначена для начинающих и посвящена оптимизации SQL-запросов через правильный выбор индексов для таблиц базы данных. Автор объясняет, как индексы ускоряют операции чтения, записи и обновления, предлагает методы выбора подходящих столбцов для индексации, в том числе мультиколоночные индексы, и обсуждает важность уникальных ключей. Подчеркивается значимость тестирования производительности и компромисс между размером и оптимизацией.

https://medium.com/the-software-firehose/how-to-choose-a-table-index-for-your-sql-database-d47715a35f34
————————————————————

Теги:

#algorithms #jupyter #sql
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Синтаксический разбор предложения русского языка

Статья описывает процесс синтаксического анализа русских предложений с использованием контекстно-свободной грамматики и LR-анализа. Приводится общий подход к разбиению предложений на синтаксические единицы, определению грамматических параметров и установлению синтаксических связей. Подробно разбираются этапы построения абстрактного дерева разбора и возникающие проблемы при машинной обработке естественного языка, такие как анафора и омонимия. Автор делится опытом создания парсера для русского языка и обсуждает его возможности и ограничения.

https://habr.com/ru/articles/464959/
————————————————————

2. PDB: Python Advanced Debugging

Статья является продолжением обсуждения Python отладчика PDB. Автор углубляется в продвинутые команды отладки, такие как условные точки останова и временные точки останова, и демонстрирует их использование на практических примерах. Помимо этого, статья освещает возможности скриптинга с помощью команды commands и рассматривает изменение потока выполнения программы с помощью команды jump. Завершается обзор настройками конфигурации PDB для оптимизации процесса отладки.

https://python.plainenglish.io/pdb-python-advanced-debugging-a970461cf563
————————————————————

3. Harnessing the Strength of Stack Data Structure: Exploring Use Cases in Data Science!!

Статья рассматривает стек как мощный инструмент в программировании, который следует принципу LIFO (последним пришёл - первым ушёл). Изучаются основные операции стека, его реализация через массивы и связные списки, а также применение в Data Science. Примеры включают рекурсивный отбор свойств в машинном обучении, анализ синтаксиса в обработке естественного языка, решение задач удовлетворения ограничений и динамического программирования. Особое внимание уделяется использованию стека в обучении нейронных сетей для реализации алгоритма обратного распространения ошибки.

https://medium.com/@balubogavalli/harnessing-the-strength-of-stack-data-structure-exploring-use-cases-in-data-science-bc5644d56f0b
————————————————————

Теги:

#nlp #python #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. DeepMind открыла код FermiNet, нейросети, которая симулирует поведение электронов

Компания DeepMind опубликовала исходный код нейронной сети FermiNet для моделирования поведения электронов. FermiNet позволяет предсказывать состояния электронов с высокой точностью и может применяться для виртуального моделирования новых материалов. DeepMind ставит целью сделать FermiNet более совершенной для решения сложных задач квантовой физики.

https://habr.com/ru/articles/524552
————————————————————

2. “Programming with an AI”

В статье рассказывается о том, как интеграция искусственного интеллекта позволяет повысить эффективность и продуктивность программистов. AI-инструменты могут генерировать фрагменты кода, анализировать и улучшать его качество. Растёт роль платформ для совместной разработки, где программисты делятся решениями задач. Особое внимание уделено Blackbox - инструменту для генерации и оптимизации кода с помощью искусственного интеллекта.

https://medium.com/@pedro.programa1/programming-with-an-ai-6a47fb3f651
————————————————————

3. MNIST dataset using Deep Learning algorithm (ANN)

В статье рассматривается классификация изображений MNIST с помощью нейронной сети. Загружается датасет MNIST Fashion, подготавливаются данные, строится и обучается модель ANN. Оцениваются точность обучения и тестирования, а также ф1-скор и AUC. Описываются способы снижения переобучения путем дополнительных слоев, регуляризации, увеличения эпох обучения.

https://medium.com/@prtk13061992/mnist-dataset-using-deep-learning-algorithm-ann-c6f83aa594f5
————————————————————

Теги:

#devblog #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. 25 прикольных вопросов для собеседования по машинному обучению

Статья предлагает 25 интересных вопросов, которые могут быть заданы на собеседовании по машинному обучению. Они затрагивают различные аспекты теории и практики машинного обучения, такие как регрессия, классификация, нейронные сети. Цель вопросов - не только проверить знания кандидата, но и стимулировать глубокий анализ и дискуссию.

https://medium.com/nuances-of-programming/25-%D0%BF%D1%80%D0%B8%D0%BA%D0%BE%D0%BB%D1%8C%D0%BD%D1%8B%D1%85-%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81%D0%BE%D0%B2-%D0%B4%D0%BB%D1%8F-%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F-%D0%BF%D0%BE-%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC%D1%83-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8E-17c6087892f5
————————————————————

2. An Introduction to Regularization in Machine Learning

Статья рассказывает о регуляризации как методе машинного обучения, позволяющем избежать переобучения модели. Рассматриваются два основных подхода к регуляризации - Ridge regression и Lasso regression. Описывается математическая суть каждого метода и его преимущества.

https://python.plainenglish.io/cross-validation-and-regularization-part-2-97c31c762631
————————————————————

3. A Google engineer shares her technical interview tips

Интервью с сотрудницей Google, инженером Леанн Джонсон. Она рассказывает о своем профессиональном пути, работе в Google и подготовке к собеседованию. До Google она работала в NASA. Для подготовки к интервью читала книги и создавала флеш-карты. Дает советы аспирантам Google акцентировать внимание на объяснении логики, а не на идеальном решении.

https://blog.google/inside-google/life-at-google/google-engineer-shares-her-technical-interview-tips/
————————————————————

Теги:

#career #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Как собрать датасет за неделю: опыт студентов магистратуры «Наука о данных»

Статья рассказывает о том, как группа студентов магистратуры собирала данные за неделю для проекта. Студенты разделили задачи и собирали разные типы данных, такие как статистика популярных сайтов, анализ эмоций в социальных сетях, мониторинг акций на рынке ценных бумаг. За неделю им удалось собрать большой объем полезных данных для последующего анализа.

https://habr.com/ru/companies/skillfactory/articles/534682/
————————————————————

2. Algorithm Analysis — Part 1: Learning to analyze algorithms

В статье рассказывается о методах анализа алгоритмов. Предлагается анализировать сложность алгоритмов по параметрам времени работы и объема памяти. Время работы зависит от размера входных данных, поэтому оно можно описать как функцию T(n). Затем показан пример расчета сложности простого алгоритма подсчета нулей в массиве. Далее рассматривается более сложный алгоритм поиска троек с нулевой суммой и вводится понятие ведущего порядка асимптотической сложности.

https://mmrndev.medium.com/algorithm-analysis-part-1-learning-to-analyze-algorithms-7dcee1262d09
————————————————————

3. Exploring Lambda Functions: Syntax, Applications, and Real-World Examples

В статье рассматриваются анонимные функции (lambda-функции) в Python. Описывается их синтаксис и структура, приводятся примеры использования lambda-функций с несколькими аргументами и различными типами параметров. Рассмотрены применения lambda-функций в функциональном программировании с высокоуровневыми функциями, такими как map, filter, reduce. Приведены реальные примеры использования lambda-функций в медицинских картах пациентов для фильтрации и анализа данных.

https://blog.stackademic.com/exploring-lambda-functions-syntax-applications-and-real-world-examples-bc3e6c773486
————————————————————

Теги:

#devblog #algorithms #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Разработка навыков для Алисы. Опыт работы с голосовыми интерфейсами, советы начинающим

Автор делится опытом создания детского новогоднего навыка для Алисы. Рассказывает особенности работы с голосовыми интерфейсами, дает советы начинающим разработчикам навыков. Описывает необходимые технические компоненты и ресурсы для создания навыка.

https://habr.com/ru/articles/434194/
————————————————————

2. Solving Number of Islands using Depth First Search (DFS)

Автор рассматривает задачу подсчета числа островов на карте, представленной в виде матрицы. Предлагает подход, заключающийся в использовании обхода графа в глубину (DFS) для выделения отдельных островов и подсчета их количества.

https://matthewaquino.medium.com/solving-number-of-islands-using-depth-first-search-dfs-35aff776f194
————————————————————

3. Machine learning and mobile development: how far can we get with smart gadgets?

Автор рассматривает возможности применения машинного обучения в мобильной разработке. Рассматривает текущее использование МО для персонализации, поиска, предсказательного анализа и повышения безопасности. Дает рекомендации разработчикам по использованию инструментов машинного обучения.

https://medium.com/celadon-soft/machine-learning-and-mobile-development-how-far-can-we-get-with-smart-gadgets-94a808872f19
————————————————————

Теги:

#nlp #algorithms #mobile
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Биномиальное распределение

Статья посвящена биномиальному распределению, которое применяется для описания случайных процессов с двумя исходами. Проводится симуляция бросков монетки на Python, результаты которой соответствуют теоретическому биномиальному распределению. Показано, что этот вид распределения можно использовать для моделирования различных процессов, например работы call-центра.

https://medium.com/nuances-of-programming/%D0%B1%D0%B8%D0%BD%D0%BE%D0%BC%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5-%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5-5171e049504e
————————————————————

2. Semi-Supervised Outlier Detection Using PyOD

Статья посвящена полуприсмотровой идентификации отклонений с использованием библиотеки PyOD. Рассматриваются четыре метода: KNN, KDE, PCA и Isolation Forest. Для сравнения их применены к данным о порозитете, проницаемости и плотности. Показано, что каждый метод имеет свои особенности выделения отклонений. В целом, статья наглядно демонстрирует работу различных моделей для полуприсмотровой идентификации отклонений.

https://ai.plainenglish.io/semi-supervised-outlier-detection-using-pyod-d1b5a7f73616
————————————————————

3. Role of Analytics in a Digital Business

Данная статья рассматривает роль аналитики в цифровых бизнесах. Цифровой бизнес - это использование цифровых технологий для переосмысления бизнес-процессов. Аналитика позволяет оптимизировать операции компании, понимать клиентов и увеличивать доходы посредством таргетированных предложений. Автор выделяет пять областей, где аналитика может сыграть большую роль: улучшение операций, понимание клиентов, прогнозирование, обеспечение безопасности и вовлечение сотрудников.

https://medium.com/hackernoon/role-of-analytics-in-a-digital-business-e4762b20272f
————————————————————

Теги:

#algorithms #python #career
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Неоплатонизм и информатика

Статья рассматривает использование идей Платона о существовании идеальных форм в информатике, машинном обучении и нейронных сетях. Автор сравнивает моделирование идеальных объектов на компьютере с концепцией Платона об абстрактном мире идей.

https://habr.com/ru/articles/669668/
————————————————————

2. Alexandru Agachi on “Handling Missing Data in Python/Pandas” at ODSC Europe 2018

Статья описывает доклад Александру Агачи о работе с пропущенными данными в Python/Pandas. Рассматриваются понятия пропущенных данных, методы их обработки. Отмечается, что это распространенная проблема в проектах на основе корпоративных данных.

https://odsc.medium.com/alexandru-agachi-on-handling-missing-data-in-python-pandas-at-odsc-europe-2018-c635dfc26185
————————————————————

3. Q&A Models for specific information extraction

Статья рассматривает использование трансформерных нейросетей для извлечения информации из текстов. Предлагаются различные подходы: регулярные выражения, entity detection, вопросно-ответные модели. Показано, что комбинация последнего подхода с регулярными выражениями дает наилучший результат.

https://towardsdatascience.com/q-a-models-for-specific-information-extraction-2a204f7f3521
————————————————————

Теги:

#algorithms #python #pandas #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Книга «40 алгоритмов, которые должен знать каждый программист на Python»

Статья рекомендует книгу, которая поможет программистам на Python освоить 40 важных алгоритмов, таких как поиск, сортировка, машинное обучение и другие. Книга подходит опытным программистам, желающим углубить свои знания об алгоритмах и их математических основах.

https://habr.com/ru/companies/piter/articles/719228/
————————————————————

2. Multithreading in Python

Статья рассматривает параллельное выполнение кода (мультив threads) в Python с помощью модуля threading. Приводится пример создания и запуска двух потоков для вычисления квадрата и куба числа. Описывается работа методов start(), join() для запуска и синхронизации потоков.

https://medium.com/@lionelchanlongchiu1/multithreading-in-python-a859cdc15b11
————————————————————

3. Learn and Play with TensorFlow.js Part 2: Binary Classifier

Вторая часть по обучению на TensorFlow.js. Рассматривается задача классификации данных с двумя классами с помощью нейронной сети с двумя слоями. Приводится код генерации тестовых данных, инициализации, обучения и тестирования модели, а также визуализация результатов.

https://medium.com/ailab-telu/learn-and-play-with-tensorflow-js-part-2-9b3be5ba7c8b
————————————————————

Теги:

#python #algorithms #tensorflow
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Inductive bias и нейронные сети

В статье рассматривается понятие inductive bias, его значение для машинного обучения. Приводятся примеры использования inductive bias в линейной регрессии и сверточных нейронных сетях. Также затрагивается успех архитектуры Image Transformer, связанный с этим понятием.

https://habr.com/ru/articles/591779/
————————————————————

2. Make Your Personal GPT-3.5 Turbo Application!

В статье разбирается код для создания персонального приложения на основе модели GPT-3.5 Turbo от OpenAI. Показано использование библиотеки OpenAI для взаимодействия с API, создание класса для работы с API, функция генерации ответов и построение GUI-интерфейса. Предоставлен полный пример кода приложения.

https://medium.com/thelatestai/make-your-personal-gpt-3-5-turbo-application-ece86d685d5f
————————————————————

3. A Little Code Optimisation Goes a Long Way

В статье рассматривается важность оптимизации кода даже на этапе построения прототипов. Приведен пример вычисления суммарной прибыли для данных о продажах, где показано ускорение скорости вычислений за счет более эффективного использования pandas и перехода на NumPy. Автор подчеркивает, что даже небольшие улучшения в написании кода могут значительно сократить технический долг.

https://towardsdatascience.com/a-little-code-optimisation-goes-a-long-way-91f92ff9f468
————————————————————

Теги:

#algorithms #gpt #python #pandas
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Как мы сделали распознавание речи нескольких говорящих

Статья описывает разработку системы распознавания одновременной речи нескольких говорящих. Использован подход сначала разделяющий входной аудиосигнал на отдельные каналы для каждого говорящего с помощью нейронной сети Sepformer, а затем распознающий каждый канал. Данные объединяются обратно с помощью классификатора каналов. Представлена архитектура системы и результаты ее использования.

https://habr.com/ru/articles/684228
————————————————————

2. Hierarchical Clustering Algorithm Tutorial in Python

Статья посвящена иерархической кластеризации - методу группировки данных, при котором объекты объединяются в иерархическую структуру дерева. Алгоритм реализован на языке Python с использованием библиотеки SciPy. Clustering позволяет сгруппировать объекты по степени их схожести, что полезно для анализа и визуализации данных.

https://medium.com/accel-ai/hierarchical-clustering-algorithm-tutorial-in-python-198b54dde2a9
————————————————————

3. Combine datasets using Pandas merge(), join(), concat() and append()

Статья рассказывает о функциях объединения данных в Pandas: merge(), join(), concat() и append(). Pandas - это библиотека для работы с данными и анализа данных в Python. Эти функции позволяют соединять несколько DataFrames (таблиц данных) в один, например по общему индексу или столбцу. Это необходимо при объединении нескольких источников данных в один общий dataframe для последующего анализа.

https://pub.towardsai.net/combine-datasets-using-pandas-merge-join-concat-and-append-442f839ba854
————————————————————

Теги:

#devblog #nlp #python #algorithms #pandas
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Шаг в астрофизику с помощью Python

В статье рассказывается о том, почему язык Python стал важным инструментом для астрофизиков. Описываются необходимые библиотеки для моделирования космических объектов и явлений, такие как NumPy и Matplotlib. Приводятся примеры моделирования орбиты планет, движения звезд в галактике, характеристик черных дыр и нейтронных звезд с использованием Python.

https://habr.com/ru/articles/758526
————————————————————

2. Deep dive into the basics of Gini Impurity in Decision Trees with math Intuition

В статье рассматривается показатель Gini Impurity, который используется в деревьях решений для классификации данных. Описывается, как измеряется разнообразие в выборке и рассчитывается Gini Impurity. Дается пример расчета показателя для ирисовых данных и построения дерева решений с использованием этого показателя в библиотеке scikit-learn.

https://medium.com/poli-data/deep-dive-into-the-basics-of-gini-impurity-in-decision-trees-with-math-intuition-46c721d4aaec
————————————————————

3. How does one contribute to Serenata de Amor Operation?

В статье рассказывается о проекте Serenata de Amor - неприбыльной организации, которая борется с мошенничеством и коррупцией в Бразилии путем анализа больших данных государственных закупок. Описывается, как любой желающий может внести свой вклад в этот проект, предоставляя свой опыт в области программирования, анализа данных, визуализации или исследований.

https://medium.com/serenata/how-does-one-contribute-to-serenata-de-amor-operation-36e3e7b38207
————————————————————

Теги:

#python #algorithms #devblog
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Умножение матриц: эффективная реализация шаг за шагом

В статье рассматривается эффективная реализация алгоритма умножения матриц на языке C++. Автор последовательно оптимизирует алгоритм, шаг за шагом уменьшая количество обращений к памяти. Представлены 5 вариантов реализации с описанием каждого этапа оптимизации. Достигается до 80% от максимально возможной производительности за счёт использования векторизации, микро- и макроядер.

https://habr.com/ru/articles/359272/
————————————————————

2. I Wish I Knew These 12 Algorithms and Their Applications Before the System Design Interview

Статья посвящена 12 алгоритмам, знание которых полезно при подготовке к собеседованию по проектированию систем. Автор перечисляет такие алгоритмы как сортировка, хеширование, динамическое программирование и деревья поиска и кратко описывает их применение при решении задач системного дизайна.

https://levelup.gitconnected.com/i-wish-i-knew-these-12-algorithms-and-their-applications-before-the-system-design-interview-5fb7fa8b1177
————————————————————

3. Calculate DFT and theoretical spread rate estimation in Phyton

Статья посвящена расчёту дискретного преобразования Фурье и теоретической оценке скорости распространения в языке Python. Автор описывает два алгоритма: быстрое дискретное преобразование Фурье и теоретическую оценку скорости распространения краски. Представлен пример кода на Python для вычисления DFT и расчёта скорости.

https://syahmisaadon.medium.com/calculate-dft-and-theoretical-spread-rate-estimation-in-phyton-4b53e30df1b3
————————————————————

Теги:

#cplusplus #algorithms #python
Ещё