ИИ и Работа с ним | NOTA

Канал
Технологии и приложения
Образование
Новости и СМИ
Русский
Логотип телеграм канала ИИ и Работа с ним | NOTA
@nota_aimlПродвигать
22
подписчика
46
ссылок
Ежедневный дайджест самых интересных статей про AI и машинное обучение. По всем вопросам: @nota_admin
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Как сделать Stable Diffusion XL ещё умнее, используя отрицательные подсказки

Статья описывает нововведения в модели генерации изображений Stable Diffusion XL, включая использование отрицательных подсказок для улучшения качества генерации. Автор обсуждает методы оптимизации и приводит примеры работы с моделью через библиотеку Python и Hugging Face. Рассматриваются практические аспекты использования моделей улучшения и новые функции, такие как prompt weighting и Dreambooth LoRA, позволяющие настраивать модель под специфические задачи. Также автор делится своим опытом обучения модели и сравнивает результаты с применением отрицательных подсказок.

https://habr.com/ru/articles/756496
————————————————————

2. Learning To Learn

Статья объясняет понятие "учиться учиться" и его значение в процессе обучения программированию. Автор исследует такие концепции, как таксономия Блума и кривая забывания, а также их применение в обучении. Переходя через уровни таксономии, от запоминания до создания оригинальных работ, читатели узнают, как максимизировать свои учебные способности. Статья подчеркивает важность понимания, применения, анализа, оценки и создания в контексте программирования.

https://medium.com/@lrkhan/learning-to-learn-3323cdad62d1
————————————————————

3. Generating PDF Reports Programmatically in Python Using API Data

Статья рассказывает о создании программных PDF-отчетов на Python с использованием данных API. Автор делится опытом генерации финансовых справочников с помощью Capital Finder API и предоставляет руководство с примерами кода в Jupyter Notebook. Описан процесс, начиная с получения данных до визуализации отчетов, которые являются привлекательными и удобными для распространения среди клиентов. В статье содержатся советы по созданию отчетов и шаблон HTML для их форматирования.

https://medium.com/alliedoffsets/generating-pdf-reports-programmatically-in-python-using-api-data-9f4dfe2cad6a
————————————————————

Теги:

#image_ai #softskills #python #jupyter
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Архитектура ПО: разница между архитектурой и проктированием

Статья затрагивает важность разделения понятий архитектуры и проектирования в разработке ПО. Автор объясняет, как характеристики ПО, такие как гибкость и масштабируемость, влияют на структуру решений, соответствующих техническим и бизнес требованиям. Рассматриваются различные архитектурные шаблоны, включая микросервисы и бессерверную архитектуру, и их применение в реальных проектах. Также поднимается вопрос о важности знания принципов SOLID и шаблонов проектирования для разработчиков.

https://medium.com/@nuancesprog/%D0%B0%D1%80%D1%85%D0%B8%D1%82%D0%B5%D0%BA%D1%82%D1%83%D1%80%D0%B0-%D0%BF%D0%BE-%D1%80%D0%B0%D0%B7%D0%BD%D0%B8%D1%86%D0%B0-%D0%BC%D0%B5%D0%B6%D0%B4%D1%83-%D0%B0%D1%80%D1%85%D0%B8%D1%82%D0%B5%D0%BA%D1%82%D1%83%D1%80%D0%BE%D0%B9-%D0%B8-%D0%BF%D1%80%D0%BE%D0%BA%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC-45ab308a233e
————————————————————

2. Latent Semantic Analysis: intuition, math, implementation

Статья подробно разбирает тему Латентного Семантического Анализа (LSA), его интуицию, математические основы и реализацию. LSA помогает выявлять темы и топики в тексте с помощью методов машинного обучения без учителя, основываясь на гипотезе дистрибутивности и Сингулярном Значении Декомпозиции (SVD). Автор описывает, как LSA сокращает высокую размерность текстовых данных, представляя их в терминах скрытых особенностей. Реализация LSA на Python с использованием Scikit-Learn и набора данных 20 newsgroups показывает, как техника может быть применена на практике для анализа текста и его классификации.

https://towardsdatascience.com/latent-semantic-analysis-intuition-math-implementation-a194aff870f8
————————————————————

3. Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models

В этой статье подробно рассматривается развертывание моделей XGBoost, LightGBM и других древовидных моделей на Amazon SageMaker с использованием NVIDIA Triton Inference Server. Описывается архитектура Triton, включая Forest Inference Library (FIL) backend для оптимизации производительности. Предоставляются инструкции по настройке конфигурационных файлов моделей, предварительной обработке данных с помощью Python backend и созданию конвейера с использованием функции ensemble в Triton. Также приводится пример ноутбука для разворачивания модели XGBoost с предобработкой на SageMaker.

https://aws.amazon.com/ru/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/
————————————————————

Теги:

#architecture #nlp #devops
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Когда параллелизм превосходит конкурентность

В статье обсуждается разница между параллелизмом и конкурентностью в программировании. Автор объясняет, что параллелизм подходит для задач, которые можно разделить на независимые части и выполнять одновременно, в то время как конкурентность решает одну задачу множеством процессов, требующих синхронизации. Приводится примеры из практики, плюсы и минусы каждого подхода, а также рекомендации, когда и какой подход более предпочтителен для оптимизации производительности.

https://medium.com/nuances-of-programming/%D0%BA%D0%BE%D0%B3%D0%B4%D0%B0-%D0%BF%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC-%D0%BF%D1%80%D0%B5%D0%B2%D0%BE%D1%81%D1%85%D0%BE%D0%B4%D0%B8%D1%82-%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D0%B5%D0%BD%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C-c846c8f59897
————————————————————

2. LeetCode Problem 1757 Recyclable and Low Fat Products — LeetCode: 30 Days of Pandas

Эта статья является частью 30-дневного учебного плана по Pandas на LeetCode и рассматривает задачу 1757 "Recyclable and Low Fat Products". Автор предоставляет подробное решение задачи на языке Python с использованием библиотеки Pandas. Задача заключается в выявлении продуктов, которые одновременно относятся к категории низкожирных и подлежащих переработке. Решение включает фильтрацию данных и демонстрацию работы с DataFrame для получения необходимого результата.

https://medium.com/@robertsevan/leetcode-problem-title-leetcode-30-days-of-pandas-447c42fca341
————————————————————

3. Guide to R and Python in a Single Jupyter Notebook

Статья представляет собой руководство по использованию языков R и Python в одной Jupyter тетради, показывая, как можно использовать оба языка одновременно для анализа данных. Описывается, как импортировать функции и наборы данных из R в Jupyter Notebook на Python, позволяя выполнять линейную и полиномиальную регрессию, работать с моделями и визуализировать данные. Подробно рассматривается процесс взаимодействия между двумя языками, включая импорт функций, работы с массивами и представлением данных, а также получение и анализ результатов.

https://towardsdatascience.com/guide-to-r-and-python-in-a-single-jupyter-notebook-ff12532eb3ba
————————————————————

Теги:

#algorithms #python #rlang #jupyter
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Дизайн классов: что такое хорошо?

Автор статьи делится опытом проектирования классов и предлагает советы, которые помогут избегать типичных ошибок. Рассматриваются вопросы атомарности контракта классов, необходимости чистоты кода и управления зависимостями между классами, а также вреда от злоупотребления шаблонами проектирования. Статья акцентирует внимание на важности простоты и понятности кода, что облегчает его поддержку и развитие, и предлагает конкретные методики для достижения этих целей.

https://habr.com/ru/companies/dataart/articles/443756/
————————————————————

2. Named Entity Recognition Program Evaluations

Статья представляет обзор оценки моделей распознавания именованных сущностей (NER) для коммерческих NLP-продуктов. Команда Anno.Ai провела анализ NER-сервисов от разных провайдеров, включая AWS Comprehend и Microsoft Azure Cognitive Services. Оценка базировалась на наборе данных Ontonotes и включала сравнение точности, полноты и F1-меры. Финч выделилась среди других сервисов за счет последовательной производительности и расширенных возможностей обогащения данных.

https://anno-ai.medium.com/anno-ai-people-places-things-named-entity-recognition-9c1bb52c2ba7
————————————————————

3. A Thorough Intro to Pandas for Data Analysis II

Статья является продолжением вводного руководства по использованию Pandas для анализа данных. В ней подробно рассматриваются методы инспекции, фильтрации и редактирования данных с использованием структур данных Series и DataFrame. Объясняются функции для импорта и экспорта данных, методы для первичного осмотра набора данных, а также детально описываются способы выбора и фильтрации частей данных с применением оператора индексации, loc и iloc. Автор делится советами и лучшими практиками для работы с библиотекой Pandas.

https://battox.medium.com/a-thorough-intro-to-pandas-for-data-analysis-ii-d09cbbf67cd
————————————————————

Теги:

#algorithms #nlp #pandas
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Постановка задачи компьютерного зрения

Автор делится своим многолетним опытом в области компьютерного зрения, распознавания образов и машинного обучения. Основная тема статьи - распространённые ошибки при формулировке задач CV и важность тестовой базы примеров для корректной работы систем. База данных необходима для определения границ применения алгоритма и предсказуемости его поведения в разных ситуациях. Статья содержит примеры из реальной практики и советы по сбору репрезентативной базы данных.

https://habr.com/ru/articles/274725/
————————————————————

2. Trunk-Based Development: The Key to Better and Faster Software

Статья объясняет принципы trunk-based development (TBD) - методологии разработки ПО, фокусирующейся на одной главной ветке кода. Автор анализирует, как TBD может улучшить качество и ускорить процесс разработки за счет коротких жизненных циклов веток, частых коммитов, непрерывной интеграции и доставки (CI/CD), автоматизированного тестирования и использования флагов функций. Сравнивается с другими стратегиями ветвления и даются советы по реализации TBD в организациях для достижения лучшей эффективности и скорости разработки.

https://semaphoreci.medium.com/trunk-based-development-the-key-to-better-and-faster-software-577a76fad3cf
————————————————————

3. sense2vec in python3

Статья посвящена инструменту sense2vec для получения синонимов и корреляций по ключевым словам в Python. Рассказывается о том, как использовать sense2vec без обучения собственного корпуса текстов, и предоставляются два предварительно обученных набора векторов с Reddit 2015 и 2019 годов. Описываются шаги установки, импорта библиотек, использования sense2vec и решение распространенных проблем. Автор даёт советы для работы с инструментом, включая выбор подходящего набора векторов и избегание ошибок нехватки памяти.

https://medium.com/nerd-for-tech/sense2vec-in-python3-9d3db9557495
————————————————————

Теги:

#devblog #image_ai #devops #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Теория счастья. Статистика, как научный способ чего-либо не знать

Статья развенчивает мифы о статистике, рассматривая её как инструмент понимания случайных процессов и непредсказуемости жизни. Автор делится мыслями из своей книги, освещая важность теории вероятностей и математической статистики. Читателям предлагается новый взгляд на статистику не как на средство манипуляции, а как на язык для рассуждения о неизвестных случайных процессах с вычислимой мерой уверенности в получаемых данных.

https://habr.com/ru/articles/435812/
————————————————————

2. Spatial Visualizations and Analysis in Python with Folium

Статья посвящена использованию библиотеки Folium для визуализации и анализа пространственных данных в Python. Автор описывает, как с помощью Folium можно создавать интерактивные карты в Jupyter Notebook, что позволяет лучше понимать и анализировать геоданные. Рассматриваются преимущества использования карт для наглядности данных, а также методы создания тепловых карт и временных динамических визуализаций. Представлены примеры кода и результаты анализа данных такси в Нью-Йорке, что подчеркивает потенциал Folium для решения реальных задач.

https://towardsdatascience.com/data-101s-spatial-visualizations-and-analysis-in-python-with-folium-39730da2adf
————————————————————

3. Algorithm Test Engineering: Exploratory Job Analysis

В статье рассматривается процесс тестирования алгоритмов, включая определение их пригодности, соответствия данным, оценку альтернатив и адаптацию к конкретным задачам и системам. Автор делится опытом анализа и тестирования классических алгоритмов - бинарного поиска и алгоритма Левенштейна для расчёта редакционного расстояния. Представлены мысли о важности понимания алгоритмов и данных, к которым они применяются, а также о разработке и запуске экспериментов для изучения и улучшения алгоритмов.

https://levelup.gitconnected.com/algorithm-test-engineering-exploratory-job-analysis-1048b4344e21
————————————————————

Теги:

#devblog #python #data #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Про performance review в командах разработки

Статья обсуждает процесс performance review в IT-командах и его значение для эффективности и мотивации сотрудников. Автор делится опытом внедрения такой системы оценки в свои команды и рассказывает, как это помогает разработчикам понимать пути роста в компании. Описывается важность ценностей компании, роль лидерства, и как проведение регулярных ревью помогает улучшать взаимодействие внутри команд и поддерживать мотивацию сотрудников для достижения лучших результатов.

https://tellmeabout.tech/performance-review-basics-20793141f4c5
————————————————————

2. Pandas DataFrame With Examples. What is Pandas?

Статья рассказывает о библиотеке Pandas, широко используемой для работы со структурированными табличными данными на Python, включая машинное обучение и проекты по анализу данных. Объясняются основы создания и трансформации DataFrame в Pandas, в том числе загрузка данных из различных форматов и проведение статистических расчетов. Автор предоставляет четкие примеры кода, иллюстрирующие основные функции Pandas, такие как count, max, mean, median, min, std и демонстрирует их применение на практическом примере.

https://medium.com/@koushikadgiri2014/pandas-dataframe-with-examples-2d4c52b849d1
————————————————————

3. Improved Scripting Practices — Python

Статья посвящена улучшению практик написания скриптов на Python, включая советы по использованию абсолютных и относительных путей, улучшении логирования с помощью TimedRotatingFileHandler и использованию конфигурационных файлов для упрощения изменения скриптов. Автор делится собственным опытом оптимизации скриптов, предлагая конкретные примеры и решения, которые помогут начинающим разработчикам повысить качество и эффективность их Python-кода.

https://udayabharathi.medium.com/improved-scripting-practices-python-643571259f7f
————————————————————

Теги:

#softskills #python #pandas
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Фотограф попросил удалить свои работы из набора обучающих данных LAION, в ответ ему выставили счёт на €887

Статья повествует о конфликте немецкого фотографа Роберта Кнешке с организацией LAION по поводу использования его фотографий в наборе данных для обучения AI. Кнешке обнаружил свои работы в датасете LAION-5B и потребовал их удаления, но получил в ответ счёт на €887. В реакции на угрозу судебных исков фотограф решил подать иск против LAION, мотивируя свои действия необходимостью защиты авторских прав в эпоху AI.

https://habr.com/ru/news/732364/
————————————————————

2. Getting Started with Method Chaining in Object-Oriented Programming

Введение в использование цепочек вызовов методов в объектно-ориентированном программировании. Статья разъясняет, как методы можно вызывать последовательно, используя один объект, что упрощает код и делает его более читаемым. Приводятся примеры на JavaScript, PHP и Python. Показано, как создать класс, добавить методы и использовать их в цепочке для достижения желаемого результата. Статья подходит как для начинающих, так и для опытных программистов, желающих улучшить навыки написания более эффективного и чистого кода.

https://medium.com/@hendurhance/getting-started-with-method-chaining-in-object-oriented-programming-b3fd60bffe1e
————————————————————

3. The unpleasant work of Data Exploration

Статья затрагивает трудности исследования данных в проектах по Data Science и предлагает решение с помощью библиотеки Streamlit. Автор делится опытом использования Streamlit для упрощения процесса анализа данных, создания интерактивных дэшбордов и визуализации без необходимости быть full stack разработчиком. Предложенный подход помогает не только упростить анализ данных, но и делиться наработками с коллегами, повышая прозрачность и вовлекаемость команды в проект.

https://towardsdatascience.com/the-unpleasant-work-of-data-exploration-e9dde7180f5c
————————————————————

Теги:

#devblog #python #algorithms #data
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. На пути к построению графика

Статья посвящена анализу проблем операционного мониторинга с точки зрения аналитики и визуализации данных. Автор делится наблюдениями и подходами к анализу метрик, детализируя фундаментальные ошибки при работе с накопительными счетчиками и агрегацией данных. Особое внимание уделено критике использования арифметического среднего и важности понимания типов метрик. Статья обогащена примерами из практики использования инструментов мониторинга, таких как Grafana, Prometheus и InfluxDB, и рекомендациями по оптимизации процесса визуализации данных.

https://habr.com/ru/articles/490430
————————————————————

2. Finding Customers among Population Data with Machine Learning

Проект поиска потенциальных клиентов среди данных о населении с помощью машинного обучения. Статья описывает использование необученного и обученного машинного обучения для сегментации клиентов немецкой почтовой компании. Автор применяет PCA и кластеризацию K-means для выявления сегментов населения, наиболее вероятно являющихся клиентами, и использует различные модели обученного машинного обучения для предсказания результатов маркетинговой кампании. Раскрыты этапы предварительной обработки данных, подбора моделей и оценки их эффективности.

https://chinnaporn-chinotaikul.medium.com/finding-customers-among-population-data-with-machine-learning-a8aaeb047f42
————————————————————

3. Python List (Part I). smart and simple

Статья является началом серии обучающих материалов о списках в Python. Описывается, что такое список, его отличия от массивов в других языках программирования и его мощные возможности. Автор обсуждает важные концепции, такие как изменяемость (mutability), индексирование и срезы (indexing and slicing), функции работы со списками и ситуации использования списков в приложениях. Также затрагиваются темы эффективного использования циклов for и while для итерации по спискам, встроенные функции Python, такие как len, и различные подходы к итерации.

https://articles-dsml.medium.com/python-list-part-i-8baa9b2c4b5d
————————————————————

Теги:

#data #algorithms #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Узнаю тебя из тысячи: новый алгоритм способен распознать дипфейк по отражению в глазах

Новый алгоритм из Университета штата Нью-Йорк в Буффало позволяет распознавать дипфейки, анализируя отражения в глазах на изображениях. Авторы статьи описывают, как отсутствие "физических ограничений" в алгоритмах создания дипфейков приводит к различиям в отражениях между настоящими и искусственными изображениями. Представленный метод демонстрирует высокую точность в 94% при определении поддельных изображений в идеальных условиях.

https://habr.com/ru/articles/546714
————————————————————

2. Introduction to numpy for beginners

Статья является вводным руководством по библиотеке NumPy для начинающих. Объясняет основные концепции и операции, такие как создание массивов, индексация, матричные операции, использование случайных чисел и атрибуты массивов. NumPy представляет собой ключевую библиотеку для вычислений в Python и необходима для работы в области машинного обучения и анализа данных. Автор демонстрирует примеры кода и предоставляет советы по использованию функций NumPy для улучшения аналитических навыков.

https://medium.com/analytics-vidhya/introduction-to-numpy-for-beginners-9a0db6bc2a07
————————————————————

3. Language Detection in Python using fasttext and fastAPI

Статья рассказывает о создании инструмента для определения языка текста с помощью библиотеки fasttext и фреймворка FastAPI в Python. Автор делится личным опытом извлечения данных из PDF-файлов на различных языках и поиска подходящего инструмента для их распознавания. Описывается процесс очистки текста и настройка локального API для его использования в других приложениях. Fasttext выделяется благодаря своей скорости и бесплатности, а FastAPI предпочтен для создания API из-за масштабируемости и асинхронности.

https://medium.com/@hrushikesh.dhumal/language-detection-in-python-using-fasttext-and-fastapi-a52d0f0d779a
————————————————————

Теги:

#algorithms #python #numpy #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Основы современного искусственного интеллекта: как он работает, и уничтожит ли наше общество уже в этом году?

Статья разъясняет, что такое искусственный интеллект (ИИ), разницу между машинным обучением и глубоким обучением, их влияние на общество. Автор разбирает концепции сильного и слабого ИИ, демистифицирует популярные заблуждения и описывает, какие прорывы в технологии ИИ уже достигнуты. В статье также обсуждаются потенциальные проблемы и перспективы развития ИИ.

https://habr.com/ru/articles/451214/
————————————————————

2. PERMUTATION IMPORTANCE AS A SUCCINCT MODEL SUMMARY

Статья обсуждает метод "Permutation Importance" для выявления значимости признаков в моделях машинного обучения. Описывается, как перестановка данных влияет на точность предсказаний модели, что помогает понять важность каждого признака. Автор рассказывает об использовании библиотеки Python Eli5 для вычисления этой метрики и о том, как интерпретировать результаты. Этот подход позволяет повысить "объясняемость" машинного обучения.

https://medium.com/@funboy.ea/permutation-importance-as-a-succinct-model-summary-dd88ff3fbe1d
————————————————————

3. Decoding Football Teams: Unveiling Playing Styles Through Clustering Analysis

Анализ стилей игры футбольных команд через кластерный анализ. Используя метод K-средних, авторы статьи выделяют шесть уникальных тактических подходов команд Английской Премьер-лиги и Ла Лиги сезона 2019–2020. Данные о владении мячом, соотношении коротких пасов к длинным, и разнице ожидаемых голов без пенальти (npxGD) позволили идентифицировать различные тактические предпочтения. Авторы обсуждают важность выбора оптимального количества кластеров и как это влияет на анализ игровых стилей.

https://amyrmahdy.medium.com/decoding-football-teams-unveiling-playing-styles-through-clustering-analysis-f172979c7647
————————————————————

Теги:

#algorithms #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. CatBoost, XGBoost и выразительная способность решающих деревьев

Статья исследует алгоритмы машинного обучения CatBoost и XGBoost, основанные на решающих деревьях. Обсуждаются преимущества и особенности этих алгоритмов, включая упорядоченное target-кодирование, использование решающих таблиц и возможность работы с текстовыми признаками. Автор проводит собственное исследование и эксперименты, демонстрируя, что ансамбли деревьев ограниченной глубины не являются универсальными аппроксиматорами.

https://habr.com/ru/articles/645887
————————————————————

2. Powerful Machine Learning Resources: What Google Colab Is and How to Use It

Статья рассказывает о Google Colab, бесплатной облачной платформе для машинного обучения, работающей на основе Jupyter notebooks. Colab предлагает использование GPU для тяжелых вычислений и интеграцию с Google Drive. Автор объясняет, как начать работу с Colab и для каких проектов его можно использовать, включая обучение моделей на изображениях, текстах и звуках.

https://medium.com/imagescv/powerful-machine-learning-resources-what-google-colab-is-and-how-to-use-it-195399ae6b6d
————————————————————

3. How to choose a table index for your SQL database

Статья предназначена для начинающих и посвящена оптимизации SQL-запросов через правильный выбор индексов для таблиц базы данных. Автор объясняет, как индексы ускоряют операции чтения, записи и обновления, предлагает методы выбора подходящих столбцов для индексации, в том числе мультиколоночные индексы, и обсуждает важность уникальных ключей. Подчеркивается значимость тестирования производительности и компромисс между размером и оптимизацией.

https://medium.com/the-software-firehose/how-to-choose-a-table-index-for-your-sql-database-d47715a35f34
————————————————————

Теги:

#algorithms #jupyter #sql
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Как развернуть Apache Superset в облаке: Docker, ВМ, Kubernetes

Статья объясняет, как развернуть инструмент бизнес-аналитики Apache Superset в облаке. Автор предоставляет подробные инструкции для различных платформ, включая Docker, виртуальные машины и Kubernetes, с особым акцентом на использование облака VK Cloud. Обсуждаются преимущества и недостатки Apache Superset, его совместимость с разными базами данных, а также требования к компетенциям специалистов для его администрирования и поддержки.

https://habr.com/ru/articles/706418
————————————————————

2. Python Date and Time I’ve Found Very Useful and Frequently Used as a Data Analyst

Статья делится опытом использования библиотеки datetime в Python для аналитиков данных. Автор рассказывает о ключевых функциях для работы с датами и временем, включая создание объектов date и datetime, форматирование дат, работу с относительными датами и определение количества дней в месяце. Также описываются различия между datetime и date, применение метода strftime для преобразования даты в строку, и использование библиотеки dateutil для удобной работы с относительными датами.

https://python.plainenglish.io/python-date-and-time-ive-found-very-useful-and-frequently-used-as-data-analyst-556122a4da99
————————————————————

3. An NLP CLI App for Terminal Commands

Статья знакомит с проектом командно-строчного приложения, использующего NLP (обработку естественного языка), чтобы упростить работу с командами терминала в разных операционных системах. Приложение позволяет не запоминать команды, работает на всех языках, доступных в Wit.ai, и разработано на Node.js. Автор подробно описывает клиентскую и серверную части проекта, их возможности и будущие улучшения.

https://hco.medium.com/a-semantic-command-line-application-88ac785d31aa
————————————————————

Теги:

#devops #python #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Синтаксический разбор предложения русского языка

Статья описывает процесс синтаксического анализа русских предложений с использованием контекстно-свободной грамматики и LR-анализа. Приводится общий подход к разбиению предложений на синтаксические единицы, определению грамматических параметров и установлению синтаксических связей. Подробно разбираются этапы построения абстрактного дерева разбора и возникающие проблемы при машинной обработке естественного языка, такие как анафора и омонимия. Автор делится опытом создания парсера для русского языка и обсуждает его возможности и ограничения.

https://habr.com/ru/articles/464959/
————————————————————

2. PDB: Python Advanced Debugging

Статья является продолжением обсуждения Python отладчика PDB. Автор углубляется в продвинутые команды отладки, такие как условные точки останова и временные точки останова, и демонстрирует их использование на практических примерах. Помимо этого, статья освещает возможности скриптинга с помощью команды commands и рассматривает изменение потока выполнения программы с помощью команды jump. Завершается обзор настройками конфигурации PDB для оптимизации процесса отладки.

https://python.plainenglish.io/pdb-python-advanced-debugging-a970461cf563
————————————————————

3. Harnessing the Strength of Stack Data Structure: Exploring Use Cases in Data Science!!

Статья рассматривает стек как мощный инструмент в программировании, который следует принципу LIFO (последним пришёл - первым ушёл). Изучаются основные операции стека, его реализация через массивы и связные списки, а также применение в Data Science. Примеры включают рекурсивный отбор свойств в машинном обучении, анализ синтаксиса в обработке естественного языка, решение задач удовлетворения ограничений и динамического программирования. Особое внимание уделяется использованию стека в обучении нейронных сетей для реализации алгоритма обратного распространения ошибки.

https://medium.com/@balubogavalli/harnessing-the-strength-of-stack-data-structure-exploring-use-cases-in-data-science-bc5644d56f0b
————————————————————

Теги:

#nlp #python #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Реальная стоимость жизни в Кремниевой Долине для разработчика

Автор описывает расходы и доходы семьи из 3 человек, проживающей в Кремниевой Долине. Раскрывает размер зарплаты программиста, расходы на аренду дома, продукты, машину, увлечения. Отмечает положительные моменты (погода, природа) и проблемы (дороговизна, пробки, преступность).

https://habr.com/ru/articles/503062/
————————————————————

2. How to build and deploy a lyrics generation model — framework agnostic

Автор описывает свой опыт по созданию нейросетевой модели для генерации рэп-текстов на основе большого датасета лирики. Рассказывает о сборе данных, подготовке, тренировке модели, разработке веб-интерфейса. Указывает на открытый код проекта в GitHub.

https://towardsdatascience.com/how-to-build-and-deploy-a-lyrics-generation-model-framework-agnostic-589f3026fd53
————————————————————

3. Why developers need career coaching

Статья рассказывает о преимуществах карьерного коучинга для программистов. Коучинг помогает развить навыки общения и мягкие навыки, которые важны для работодателей. Коуч может помочь с планированием карьерного роста, овладением новыми технологиями и поддержанием конкурентоспособности на рынке труда в условиях быстрого развития IT-индустрии.

https://medium.com/getting-better-together/why-developers-need-career-coaching-aba0219d44be
————————————————————

Теги:

#career #nlp
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Четырехдневная рабочая неделя: результаты разных экспериментов. Плюсы, минусы и перспективы



https://habr.com/ru/articles/506014
————————————————————

2. Real-time face mesh point cloud with Three.JS, Tensorflow.js and Typescript

Статья описывает реализацию трехмерного облака точек лица в реальном времени с использованием Three.js, Tensorflow.js и Typescript. Рассматриваются этапы получения видеопотока с веб-камеры, распознавания лица, создания облака точек и его обновления в соответствии с детекцией лица.

https://techtee.medium.com/real-time-face-mesh-point-cloud-with-three-js-tensorflow-js-and-typescript-1f37ae844e1f
————————————————————

3. Analyzing Machine Learning Models through Dashboards

Статья описывает библиотеку Python Evidently для создания дашбордов анализа моделей машинного обучения. Библиотека позволяет генерировать интерактивные отчеты о качестве моделей и их параметрах для дальнейшего анализа и отладки.

https://medium.com/@aniketmohan/analyzing-machine-learning-models-through-dashboards-55b43aa9d3e7
————————————————————

Теги:

#nlp #tensorflow #python
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. ChatGPT прошёл собеседование в Google на должность младшего инженера-программиста грейда L3

Статья о том, что чат-бот ChatGPT, созданный компанией OpenAI, успешно прошёл тестовое собеседование в Google и был принят на должность младшего программиста. Однако при решении логических задач ChatGPT ошибся, в отличие от LaMDA от Google. Представлены детали должности, затронута тема о том, будет ли искусственный интеллект заменять программистов в будущем.

https://habr.com/ru/news/715278/
————————————————————

2. Aligning RGB channels using NCC

В статье рассматривается задача раскрашивания черно-белых фотографий коллекции Прокудина-Горского путем выравнивания RGB-каналов с помощью нормированной кросс-корреляции. Загружается примерное изображение из коллекции, разделяется на 3 канала, которые последовательно сдвигаются для максимизации NCC и объединяются в цветное изображение. Приводятся детали реализации алгоритма на Python.

https://siddhant-shah.medium.com/aligning-rgb-channels-using-ncc-fceaa6effa57
————————————————————

3. Four Random Thoughts Vol. 5

В статье автор делится четырьмя случайными мыслями: 1) о книге Born to Run и о том, как автору захотелось начать бегать после ее прочтения; 2) о том, что для работы с ИИ нужно овладеть основами программирования; 3) об авторском скептицизме в различных областях; 4) об особенностях жизни бездомных в Сан-Франциско.

https://medium.com/@solsona/four-random-thoughts-vol-5-979235df826
————————————————————

Теги:

#gpt #image_ai #career
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. DeepMind открыла код FermiNet, нейросети, которая симулирует поведение электронов

Компания DeepMind опубликовала исходный код нейронной сети FermiNet для моделирования поведения электронов. FermiNet позволяет предсказывать состояния электронов с высокой точностью и может применяться для виртуального моделирования новых материалов. DeepMind ставит целью сделать FermiNet более совершенной для решения сложных задач квантовой физики.

https://habr.com/ru/articles/524552
————————————————————

2. “Programming with an AI”

В статье рассказывается о том, как интеграция искусственного интеллекта позволяет повысить эффективность и продуктивность программистов. AI-инструменты могут генерировать фрагменты кода, анализировать и улучшать его качество. Растёт роль платформ для совместной разработки, где программисты делятся решениями задач. Особое внимание уделено Blackbox - инструменту для генерации и оптимизации кода с помощью искусственного интеллекта.

https://medium.com/@pedro.programa1/programming-with-an-ai-6a47fb3f651
————————————————————

3. MNIST dataset using Deep Learning algorithm (ANN)

В статье рассматривается классификация изображений MNIST с помощью нейронной сети. Загружается датасет MNIST Fashion, подготавливаются данные, строится и обучается модель ANN. Оцениваются точность обучения и тестирования, а также ф1-скор и AUC. Описываются способы снижения переобучения путем дополнительных слоев, регуляризации, увеличения эпох обучения.

https://medium.com/@prtk13061992/mnist-dataset-using-deep-learning-algorithm-ann-c6f83aa594f5
————————————————————

Теги:

#devblog #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. 25 прикольных вопросов для собеседования по машинному обучению

Статья предлагает 25 интересных вопросов, которые могут быть заданы на собеседовании по машинному обучению. Они затрагивают различные аспекты теории и практики машинного обучения, такие как регрессия, классификация, нейронные сети. Цель вопросов - не только проверить знания кандидата, но и стимулировать глубокий анализ и дискуссию.

https://medium.com/nuances-of-programming/25-%D0%BF%D1%80%D0%B8%D0%BA%D0%BE%D0%BB%D1%8C%D0%BD%D1%8B%D1%85-%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81%D0%BE%D0%B2-%D0%B4%D0%BB%D1%8F-%D1%81%D0%BE%D0%B1%D0%B5%D1%81%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F-%D0%BF%D0%BE-%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC%D1%83-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8E-17c6087892f5
————————————————————

2. An Introduction to Regularization in Machine Learning

Статья рассказывает о регуляризации как методе машинного обучения, позволяющем избежать переобучения модели. Рассматриваются два основных подхода к регуляризации - Ridge regression и Lasso regression. Описывается математическая суть каждого метода и его преимущества.

https://python.plainenglish.io/cross-validation-and-regularization-part-2-97c31c762631
————————————————————

3. A Google engineer shares her technical interview tips

Интервью с сотрудницей Google, инженером Леанн Джонсон. Она рассказывает о своем профессиональном пути, работе в Google и подготовке к собеседованию. До Google она работала в NASA. Для подготовки к интервью читала книги и создавала флеш-карты. Дает советы аспирантам Google акцентировать внимание на объяснении логики, а не на идеальном решении.

https://blog.google/inside-google/life-at-google/google-engineer-shares-her-technical-interview-tips/
————————————————————

Теги:

#career #algorithms
​​Что почитать сегодня – NOTA AI/ML Daily Digest.

1. Как собрать датасет за неделю: опыт студентов магистратуры «Наука о данных»

Статья рассказывает о том, как группа студентов магистратуры собирала данные за неделю для проекта. Студенты разделили задачи и собирали разные типы данных, такие как статистика популярных сайтов, анализ эмоций в социальных сетях, мониторинг акций на рынке ценных бумаг. За неделю им удалось собрать большой объем полезных данных для последующего анализа.

https://habr.com/ru/companies/skillfactory/articles/534682/
————————————————————

2. Algorithm Analysis — Part 1: Learning to analyze algorithms

В статье рассказывается о методах анализа алгоритмов. Предлагается анализировать сложность алгоритмов по параметрам времени работы и объема памяти. Время работы зависит от размера входных данных, поэтому оно можно описать как функцию T(n). Затем показан пример расчета сложности простого алгоритма подсчета нулей в массиве. Далее рассматривается более сложный алгоритм поиска троек с нулевой суммой и вводится понятие ведущего порядка асимптотической сложности.

https://mmrndev.medium.com/algorithm-analysis-part-1-learning-to-analyze-algorithms-7dcee1262d09
————————————————————

3. Exploring Lambda Functions: Syntax, Applications, and Real-World Examples

В статье рассматриваются анонимные функции (lambda-функции) в Python. Описывается их синтаксис и структура, приводятся примеры использования lambda-функций с несколькими аргументами и различными типами параметров. Рассмотрены применения lambda-функций в функциональном программировании с высокоуровневыми функциями, такими как map, filter, reduce. Приведены реальные примеры использования lambda-функций в медицинских картах пациентов для фильтрации и анализа данных.

https://blog.stackademic.com/exploring-lambda-functions-syntax-applications-and-real-world-examples-bc3e6c773486
————————————————————

Теги:

#devblog #algorithms #python
Ещё