За 8 недель курса вы пройдете полный цикл задач Data Scientist ― от загрузки данных до кластерного анализа и обучения простых ML-моделей. В результате ― откроете новый подход к анализу больших данных с помощью Python.
11 библиотек для анализа и визуализации данных 16 онлайн-лекций + 8 домашних заданий живое общение с лектором
Python ― язык программирования № 1 в сфере Data Science и Machine Learning.
Программа курса
01 занятие
22.09
19:00
Введение в Data Science. Знакомство с задачами и инструментами
Разберитесь, какие задачи входят в область Data Science. Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory]. Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками. Научитесь создавать массивы и выполнять базовые операции над ними в NumPy.
02 занятие
24.09
19:00
NumPy. Линейная алгебра и статистика
Возобновите знания по линейной алгебре и статистике. Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy. Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива.
03 занятие
29.09
19:00
Pandas. Работа с табличными данными
Узнайте, какие задачи Data Science помогает решить библиотека Pandas. Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу. Узнайте, что делать, чтобы не перегружать оперативку.
04 занятие
01.10
19:00
Matplotlib и Seaborn. Визуализация данных
Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram]. Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn. Узнайте о трех способах визуализации данных из Pandas в Dataframe.
05 занятие
06.10
19:00
Plotly. Продвинутые и интерактивные визуализации
Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot]. Постройте базовую интерактивную визуализацию в Plotly. Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации.
06 занятие
08.10
19:00
Exploratory Data Analysis и очистка данных
Научитесь быстро понимать структуру набора данных любого размера и решать проблему наличия выбросов и дубликатов в наборе данных. Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling.
07 занятие
13.10
19:00
Поиск и устранение отсутствующих значений
Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки. Обучитесь нескольким техникам заполнения отсутствующих значений.
08 занятие
15.10
19:00
Статистический анализ данных
Ознакомьтесь с библиотекой SciPy. Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин. Изучите основы проверки статистических гипотез. Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования.
09 занятие
20.10
19:00
Задача прогнозирования. Линейная регрессия
Подготовьте данные для задачи линейной регрессии. Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn. Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn. Научитесь оценивать качества линейной регрессии с помощью метрик MSE, RMSE, MAE.
10 занятие
22.10
19:00
Задача прогнозирования. Другие виды регрессий
Ознакомьтесь с моделями полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть». Научитесь улучшать качество линейной регрессии с помощью регуляризации. Узнайте, что делать в случае высокого bias OR высокого variance модели.
11 занятие
27.10
19:00
Задача классификации. Логистическая регрессия
Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии. Обучите модель логистической регрессии для классификации данных и оцените ее качество. Научитесь оценивать качество модели мультиклассовой классификации.
12 занятие
29.10
19:00
Деревья принятия решений
Изучите принцип работы модели «Деревья принятия решений». Определите отличия этой модели от остальных. Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации.
13 занятие
03.11
19:00
Ансамбли моделей
Изучите базовые техники построения ансамблей. Научитесь строить и обучать разные типы ансамблей моделей. Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance.
14 занятие
05.11
19:00
Библиотеки CatBoost и XGBoost
Ознакомьтесь с библиотеками CatBoost и XGBoost. Узнайте, какие задачи они решают и чем отличаются друг от друга. Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели.
15 занятие
10.11
19:00
Кластерный анализ данных
Узнайте, как обучить модель без учителя с помощью кластеризации. Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering. Найдите группы похожих экземпляров в массиве данных с помощью кластеризации.
16 занятие
12.11
19:00
Отбор признаков и уменьшение соразмерности данных
Изучите простые способы выбора признаков. Выберите признаки так, чтобы оставить только самые значимые для модели. Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].
После курса вы сможете:
- работать с разными типами и структурами данных
- использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, Sweetviz, Pandas Profiling, SciPy, Scikit-learn, CatBoost и XGBoost
- строить продвинутые и интерактивные визуализации
- проводить Exploratory Data Analysis и находить взаимосвязи в данных
- заполнять пробелы в данных
- валидировать гипотезы и анализировать результаты А/В-тестирования
- решать задачи прогнозирования и классификации
- строить простые ML-модели
- начать путь в Data Science
Кому будет полезен курс
Подать заявку
- Analysts
Если вы:
- работаете в компании, которая быстро масштабируется
- можете и запрос к базе данных составить, и посчитать САС,
и применить правильную формулу
в Excel, и составить отчет - иногда вынуждены закрывать задачи дата-сайентиста, но вам сложно структурировать массивы данных и решать задачи прогнозирования
- Data Analysts/
Product AnalystsЕсли вы:
- работаете в аналитике уже
более 3 лет - знаете статистику
- пользуетесь одной из BI-систем
- хотите расширить горизонты
и перейти на новый уровень работы
с данными в сфере Data Science
- работаете в аналитике уже
- Developers
Если вы:
- кодите на Python, но для некоторых задач вам нужны знания
из Data Science - рассматриваете переход из разработки в BI-аналитику,
Data Science или Machine Learning - хотите освоить фреймворки Python, созданные специально под задачи Data Science, и строить
простые ML-модели
- кодите на Python, но для некоторых задач вам нужны знания
Необходимые знания:
Python
знать синтаксис языка, работать с разными типами и структурами данных, уметь обрабатывать ошибки и исключения, устанавливать библиотеки
Линейная алгебра
помнить скалярное умножение векторов и знать, как умножить матрицы
Статистика
понимать, что такое случайная величина, функция плотности, функция распределения, мода и медиана выборки
Пока не обладаете нужными знаниями? Обратите внимание на курс:
Для обучения нужно установить:
- Python 3.7 или более поздние версии
- Pip + Virtualenv или Conda [для пользователей Windows]
- Jupyter Notebook
- Библиотеки NumPy, Pandas, Matplotlib и Seaborn [остальные можно установить в процессе обучения]
- Текстовый редактор Sublime 3
- Браузер Chrome
Лектор
Анна Пылева Senior Data Scientist в Parimatch Tech
- развивает проекты Data Science и работает над улучшением бизнес-показателей в Parimatch Tech
- последние 6 лет работает с данными: сначала как аналитик, затем — как Machine Learning Engineer и Data Scientist
- работала в команде по разработке алгоритмов компьютерного зрения для мобильных устройств в Eyesight Technologies
- разработала ряд функций на основе CV и NLP, например, обнаружение дубликатов товаров по названию, изображению и соответствию цены, на позиции Machine Learning Engineer в EVO.company
- разработала с нуля и запустила более 10 проектов в направлениях Tabular Data Processing, Business Intelligence, Computer Vision, Natural Language Processing
- провела более 15 лекций на разные темы Data Science и Machine Learning
16 онлайн-занятий 24 часа теории
+ 30 часов самостоятельной практики 22 сентября ― 12 ноября
Записаться на курс + 30 часов самостоятельной практики 22 сентября ― 12 ноября
Регистрация