Онлайн-курс
Продолжительность:
17 онлайн-занятий
по понедельникам и четвергам
Комплексный курс, на котором вы научитесь использовать библиотеки Python для решения задач дата-саентистики, обработки массивов данных и построения ML-моделей.
На курсе вы:
-
• начнете обучение с обзора задач Data Science
• постепенно овладеете 10 ключевыми библиотеками Python для работы с данными и их визуализации
• научитесь решать такие задачи, как очистка данных и поиск отсутствующих значений, прогнозирование и классификация, кластерный анализ данных и поиск взаимосвязей
• сможете запускать A/B тестирование и валидацию гипотез, отбирать признаки и строить модели Machine Learning
• по итогам курса сможете проводить разведывательный анализ данных, строить деревья решений и ансамбли для задач классификации и прогнозирования
В программу курса DATA SCIENCE WITH PYTHON входят:
-
ИНСТРУМЕНТЫ Научитесь работать с цифрами и математическими формулами в NumPy, с табличными данными — в Pandas, с визуализациями — в Matplotlib, Seaborn и Plotly. И овладеете еще 6 библиотеками Python для Data Science.
-
СИЛЬНЫЙ КОНТЕНТ Получите overview основных задач Data Science, разберете базовые типы визуализаций и регрессии, техники построения ансамблей и Machine Learning моделей.
-
ПРАКТИКА Во время обучения вас ждет много практики. Вы будете выполнять сложные домашние задания и получать фидбек от лектора по каждому из них.
-
КАРЬЕРА Значительно расширите стек навыков, сможете внедрить новые решения на текущей работе, заложите фундамент для развития в Data Science и узнаете требования на собеседованиях.
ЛЕКТОР КУРСА DATA SCIENCE WITH PYTHON:
Александра
Кардаш
- Senior Software Engineer в Google
- former Director of Data Science в Shelf — американском стартапе в сфере Knowledge Management
- была одним из первых Data Scientists в Shelf.io и участвовала в развитии DS-команды до более чем 15 специалистов
- имеет 5 лет опыта в Data Science в различных технических отраслях, работала со стартапами от идеи до готового продукта
- в портфолио ― успешные кейсы в сфере Forecasting & Time Series Analysis, оптимизации, предиктивной аналитики и NLP
ПРОГРАММА КУРСА DATA SCIENCE WITH PYTHON:
-
01
7.10 19:30
Задачи Data Science. Interactive Python и знакомство с NumPy
- узнаете, чем машинное обучение отличается от классического программирования, и ознакомитесь с видами задач машинного обучения
- овладеете инструментами для интерактивной работы с Python [IPython, Jupyter Notebook и Google Colaboratory]
- ознакомитесь с библиотекой NumPy
- научитесь работать с типом данных Array: инициализация, характеристики, копирование, типы данных, reshape, фильтрация, сортировка
- изучите базовые математические функции Array
- научитесь создавать массивы и выполнять базовые операции над ними в библиотеке NumPy
-
02
10.10 19:30
NumPy. Линейная алгебра и статистика
- получите краткий ввод в линейную алгебру и разберете на примерах, как эти математические функции работают в библиотеке NumPy
- научитесь использовать математические и статистические функции в NumPy
- сможете вводить и выводить NumPy-матрицы и массивы разной величины
-
03
14.10 19:30
Знакомство с Pandas
- узнаете, зачем нужна библиотека Pandas и что она позволяет делать с данными
- ознакомитесь со структурами данных в Pandas (Series и Dataframe) и научитесь проводить базовые операции над ними
- научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe
- научитесь манипулировать табличными данными
- узнаете, как быстро и удобно работать с табличными данными с помощью Pandas
-
04
17.10 19:30
Визуализация данных
- ознакомитесь с библиотекой Matplotlib
- научитесь строить базовые визуализации в Python с помощью Matplotlib
- узнаете о трех способах визуализировать данные в Pandas Data Frame
- научитесь строить продвинутые визуализации: heatmap, box plot, pair plot, cumulative plot
- научитесь строить базовые интерактивные визуализации
-
05
21.10 19:30
Exploratory Data Analysis (EDA) и очистка данных
- узнаете, что такое Exploratory Data Analysis (EDA) и его основные компоненты
- научитесь быстро понимать структуру набора данных любого размера
- узнаете, что делать с пропущенными данными и дубликатами
- научитесь проводить EDA с помощью Pandas, SweetViz, Pandas Profiling
-
06
24.10 19:30
Поиск и удаление пропущенных значений
- узнаете, что такое пропущенные значения и почему их нужно прорабатывать
- ознакомитесь с типами пропущенных значений (случайные, последствия системной ошибки и т. п.)
- научитесь обнаруживать пропущенные значения в выборке данных
- рассмотрите разные способы заполнения пропущенных значений и научитесь использовать каждый из них
-
07
28.10 19:20
Задача прогнозирования. Линейная регрессия. Градиентный спуск
- разберете модель простой линейной регрессии и ее математическую основу
- ознакомитесь с методом наименьших квадратов и методом градиентного спуска
- научитесь тренировать модель линейной регрессии с помощью библиотеки scikit-learn
- узнаете, как оценивать качество модели линейной регрессии, и научитесь работать с метриками MSE и RMSE
-
08
31.10 19:30
Другие типы регрессий
- разберете модель многомерной линейной регрессии и научитесь строить ее с помощью scikit-learn
- научитесь интерпретировать коэффициенты линейной регрессии
- разберете модель полиномиальной регрессии
- узнаете, как оценивать качество модели с помощью метрик MAE, MAPE, R-squared
- разберете модели гребеночной регрессии, регрессии по методу LASSO и регрессии «эластичная сеть»
-
09
4.11 19:30
Выбор наилучшей модели. Техники валидации. Поиск гиперпараметров
- узнаете, зачем разбивать выборку на train/validation/test-выборки
- поймете, в чем отличие validation- и test-выборок
- узнаете, что такое гиперпараметры модели и в чем их отличие от параметров
- ознакомитесь с методами подбора гиперпараметров и научитесь вызывать их в scikit-learn
- узнаете, что такое перекрестная валидация и как использовать ее в sklearn
- поймете, что такое overfit и underfit (и почему это проблема)
- научитесь применять регуляризацию в моделях регрессии
-
10
7.11 19:30
Задача классификации. Логистическая регрессия
- узнаете, как учить модель логистической регрессии для классификации данных и оценивать ее качество
- получите алгоритм действий в случае мультиклассовой классификации и поймете, как оценить качество таких моделей
-
11
11.11 19:30
Модель «деревья решений»
- ознакомитесь с моделью «деревья решений» и узнаете, в чем ее отличие от линейных моделей
- научитесь строить модель «деревья решений» в scikit-learn
-
12
14.11 19:30
Ансамбли моделей
- поймете, как работают ансамбли моделей и в чем их преимущества
- разберете базовые (Max Voting, Averaging, Weighted Averaging) и продвинутые (Stacking, Bagging, Boosting) техники построения ансамблей
- научитесь строить разные типы ансамблей моделей
- узнаете, какой способ ансамблирования нужно использовать в случае high bias, а какой — в случае high variance
-
13
18.11 19:30
Алгоритмы бустинга: адаптивный и градиентный бустинг. Библиотеки XGBoost
- изучите принципы работы адаптивного и градиентного бустингов
- ознакомитесь с функциями библиотеки XGBoost, разберете ее особенности и преимущества
-
14
21.11 19:30
Кластерный анализ данных
- рассмотрите модель кластеризации в качестве примера задачи на обучение без учителя
- разберете модели кластеризации K-Means, DBSCAN, Agglomerative Clustering, а также их особенности построения и принципы работы на практике
- научитесь выявлять группы похожих экземпляров данных с помощью кластеризации
-
15
25. 11 19:30
Выбор признаков. Уменьшение размерности данных
- научитесь уменьшать размерность набора данных с большим количеством признаков
- научитесь выбирать фичи так, чтобы оставить только наиболее значимые для модели
- узнаете, как работают и чем отличаются методы уменьшения размерности SVD, PCA и LDA
-
16
28.11 19:30
Статистический анализ данных
- ознакомитесь с библиотекой SciPy
- научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин
- изучите основы проверки статистических гипотез: ошибки I и II рода, p-value
- узнаете, как проводить А/В-тестирование и проверять гипотезы
-
17
2.12 19:30
Собеседования и требования к ним. Распространенные ошибки в домашних задачах
Регистрация