11 библиотек для анализа и визуализации данных построение простых ML-моделей кластеризация, отбор признаков и уменьшение соразмерности данных
Python ― язык программирования № 1 в сфере Data Science и Machine Learning.
Наиболее эффективный способ заставить данные «говорить» ― освоить Python и его библиотеки. С этим вам поможет курс от robot_dreams. Вы научитесь парсить сайты, работать с сырыми данными, автоматизировать процесс анализа и визуализации, валидировать гипотезы и строить простые ML-модели.
Программа курса
01 занятие
Введение в Data Science. Знакомство с задачами и инструментами
Разберитесь, какие задачи входят в область Data Science. Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory]. Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками. Научитесь создавать массивы и выполнять базовые операции над ними в NumPy.
02 занятие
NumPy. Линейная алгебра и статистика
Возобновите знания по линейной алгебре и статистике. Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy. Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива.
03 занятие
Pandas. Работа с табличными данными
Узнайте, какие задачи Data Science помогает решить библиотека Pandas. Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу. Узнайте, что делать, чтобы не перегружать оперативку.
04 занятие
Matplotlib и Seaborn. Визуализация данных
Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram]. Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn. Узнайте о трех способах визуализации данных из Pandas в Dataframe.
05 занятие
Plotly. Продвинутые и интерактивные визуализации
Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot]. Постройте базовую интерактивную визуализацию в Plotly. Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации.
06 занятие
Exploratory Data Analysis и очистка данных
Научитесь быстро понимать структуру набора данных любого размера и решать проблему наличия выбросов и дубликатов в наборе данных. Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling.
07 занятие
Поиск и устранение отсутствующих значений
Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки. Обучитесь нескольким техникам заполнения отсутствующих значений.
08 занятие
Статистический анализ данных
Ознакомьтесь с библиотекой SciPy. Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин. Изучите основы проверки статистических гипотез. Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования.
09 занятие
Задача прогнозирования. Линейная регрессия
Подготовьте данные для задачи линейной регрессии. Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn. Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn. Научитесь оценивать качества линейной регрессии с помощью метрик MSE, RMSE, MAE.
10 занятие
Задача прогнозирования. Другие виды регрессий
Ознакомьтесь с моделями полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть». Научитесь улучшать качество линейной регрессии с помощью регуляризации. Узнайте, что делать в случае высокого bias OR высокого variance модели.
11 занятие
Задача классификации. Логистическая регрессия
Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии. Обучите модель логистической регрессии для классификации данных и оцените ее качество. Научитесь оценивать качество модели мультиклассовой классификации.
12 занятие
Деревья принятия решений
Изучите принцип работы модели «Деревья принятия решений». Определите отличия этой модели от остальных. Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации.
13 занятие
Ансамбли моделей
Изучите базовые техники построения ансамблей. Научитесь строить и обучать разные типы ансамблей моделей. Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance.
14 занятие
Библиотеки CatBoost и XGBoost
Ознакомьтесь с библиотеками CatBoost и XGBoost. Узнайте, какие задачи они решают и чем отличаются друг от друга. Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели.
15 занятие
Кластерный анализ данных
Узнайте, как обучить модель без учителя с помощью кластеризации. Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering. Найдите группы похожих экземпляров в массиве данных с помощью кластеризации.
16 занятие
Отбор признаков и уменьшение соразмерности данных
Изучите простые способы выбора признаков. Выберите признаки так, чтобы оставить только самые значимые для модели. Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].
После курса вы сможете:
- работать с разными типами и структурами данных
- использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, Sweetviz, Pandas Profiling, SciPy, Scikit-learn, CatBoost и XGBoost
- строить продвинутые и интерактивные визуализации
- проводить Exploratory Data Analysis и находить взаимосвязи в данных
- заполнять пробелы в данных
- валидировать гипотезы и анализировать результаты А/В-тестирования
- решать задачи прогнозирования и классификации
- строить простые ML-модели
- начать путь в Data Science
Кому будет полезен курс
Подать заявку
- Analysts
Если вы:
- работаете в компании, которая быстро масштабируется
- можете и запрос к базе данных составить, и посчитать САС,
и применить правильную формулу
в Excel, и составить отчет - иногда вынуждены закрывать задачи дата-сайентиста, но вам сложно структурировать массивы данных и решать задачи прогнозирования
- Data Analysts/
Product AnalystsЕсли вы:
- работаете в аналитике уже
более 3 лет - знаете статистику
- пользуетесь одной из BI-систем
- хотите расширить горизонты
и перейти на новый уровень работы
с данными в сфере Data Science
- работаете в аналитике уже
- Developers
Если вы:
- кодите на Python, но для некоторых задач вам нужны знания
из Data Science - рассматриваете переход из разработки в BI-аналитику,
Data Science или Machine Learning - хотите освоить фреймворки Python, созданные специально под задачи Data Science, и строить
простые ML-модели
- кодите на Python, но для некоторых задач вам нужны знания
Необходимые знания:
Python
знать синтаксис языка, работать с разными типами и структурами данных, уметь обрабатывать ошибки и исключения, устанавливать библиотеки
Линейная алгебра
помнить скалярное умножение векторов и знать, как умножить матрицы
Статистика
понимать, что такое случайная величина, функция плотности, функция распределения, мода и медиана выборки
Пока не обладаете нужными знаниями? Обратите внимание на курс:
Лектор
Анна Пылева Senior Data Scientist в Parimatch Tech
- развивает проекты Data Science и работает над улучшением бизнес-показателей в Parimatch Tech
- последние 6 лет работает с данными: сначала как аналитик, затем — как Machine Learning Engineer и Data Scientist
- работала в команде по разработке алгоритмов компьютерного зрения для мобильных устройств в Eyesight Technologies
- разработала ряд функций на основе CV и NLP, например, обнаружение дубликатов товаров по названию, изображению и соответствию цены, на позиции Machine Learning Engineer в EVO.company
- разработала с нуля и запустила более 10 проектов в направлениях Tabular Data Processing, Business Intelligence, Computer Vision, Natural Language Processing
- провела более 15 лекций на разные темы Data Science и Machine Learning
16 онлайн-занятий 24 часа теории
+ 30 часов самостоятельной практики
Записаться + 30 часов самостоятельной практики
Регистрация