Python для Data Science
Анна Пылева
Senior Data Scientist в Parimatch Tech

16 онлайн-занятий
по вторникам и субботам
Курс научит решать основные задачи Data Science с помощью углубленной работы с Python и его библиотеками. В результате ― вы сможете строить продвинутые визуализации, находить взаимосвязи в данных, делать прогнозы и обучать модели.
После курса вы освоите 11 библиотек Python для Data Science и научитесь с помощью простого кода проводить манипуляции над данными и на основе глубокого анализа предлагать бизнес-решения, которые точно сработают.
После курса вы будете проводить Exploratory Data Analysis, делать прогнозы и строить простые ML-модели. Узнаете, как находить инсайты в графиках и диаграммах, а потом на основе анализа формулировать и валидировать статистические гипотезы.
Знать синтаксис языка, работать с разными типами и структурами данных, уметь обрабатывать ошибки и исключения, устанавливать библиотеки
Помнить скалярное умножение векторов и знать, как умножить матрицы
Понимать, что такое случайная величина, функция плотности, функция распределения, мода и медиана выборки

Сфера Data Science покрывает огромный пласт задач: от анализа больших данных до построения ML-моделей. Мы начнем в них разбираться уже на первом занятии и постепенно освоим ключевые библиотеки Python для обработки, анализа и визуализации данных.
На практике мы научимся решать такие задачи, как:
→ очистка данных и поиск отсутствующих значений
→ прогнозирование и классификация
→ кластерный анализ данных и поиск взаимосвязей
→ запуск a/b-тестирований и валидация гипотез
→ отбор признаков и построение моделей machine learning.
По итогам курса вы сможете проводить Exploratory Data Analysis, делать прогнозы и начать свой путь в Data Science.
Научитесь работать с цифрами и математическими формулами в NumPy, с табличными данными ― в Pandas, с визуализациями ― в Matplotlib, Seaborn и Plotly. И освоите еще 6 библиотек Python для Data Science.
Получите overview основных задач Data Science, разберете базовые типы визуализаций и модели регрессий, техники построения ансамблей и machine learning моделей.
Во время обучения вас ждет очень много практики. Вы будете выполнять сложные домашние задания и получать фидбек от лектора по каждому.
Значительно расширите стек навыков, сможете внедрить новые решения на текущей работе и заложите фундамент для развития в Data Science.

Разберитесь, какие задачи входят в область Data Science. Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory]. Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками. Научитесь создавать массивы и выполнять базовые операции над ними в NumPy.
Возобновите знания по линейной алгебре и статистике. Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy. Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива.
Узнайте, какие задачи Data Science помогает решить библиотека Pandas. Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу. Узнайте, что делать, чтобы не перегружать оперативку.
Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram]. Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn. Узнайте о трех способах визуализации данных из Pandas в Dataframe.
Exploratory Data Analysis и очистка данных
Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot]. Постройте базовую интерактивную визуализацию в Plotly. Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации. Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling.
Ознакомьтесь с основными принципами построения простой линейной регрессии. Изучите алгоритм градиентного спуска. Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn. Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn.
и перекрестная валидация
Научитесь оценивать качество линейной регрессии с помощью метрик MSE, RMSE, MAE. Ознакомьтесь с методами разделения данных [train, validation, test] и методами подбора гиперпараметров [grid search, random search, bayesian optimization]. Научитесь проводить перекрестную проверку с помощью Scikit-learn.
Ознакомьтесь с моделями многомерной линейной регрессии, полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть». Научитесь улучшать качество линейной регрессии с помощью регуляризации. Узнайте, что делать в случае высокого bias или высокого variance модели.
Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии. Обучите модель логистической регрессии для классификации данных и оцените ее качество. Научитесь оценивать качество модели мультиклассовой классификации.
Изучите принцип работы модели «Деревья принятия решений». Определите отличия этой модели от остальных. Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации.
Изучите базовые техники построения ансамблей. Научитесь строить и обучать разные типы ансамблей моделей. Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance.
Библиотеки CatBoost и XGBoost
Изучите принципы адаптивного и градиентного бустинга. Ознакомьтесь с библиотеками CatBoost и XGBoost. Узнайте, какие задачи они решают и чем отличаются друг от друга. Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели.
Узнайте, как обучить модель без учителя с помощью кластеризации. Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering. Найдите группы похожих экземпляров в массиве данных с помощью кластеризации.
Изучите простые способы выбора признаков. Выберите признаки так, чтобы оставить только самые значимые для модели. Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].
Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки. Обучитесь нескольким техникам заполнения отсутствующих значений.
Ознакомьтесь с библиотекой SciPy. Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин. Изучите основы проверки статистических гипотез. Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования.