Онлайн-курс "Data Science with Python" — освойте ключевой инструмент в сфере аналитики и машинного обучения | robot_dreams

Освойте библиотеки Python для обработки массивов данных

Data Science with Python

Александра Кардаш Director of Data Science у Shelf

Онлайн-курс

Продолжительность:

17 онлайн-занятий
по понедельникам и четвергам

Комплексный курс, на котором вы научитесь использовать библиотеки Python для решения задач дата-саентистики, обработки массивов данных и построения ML-моделей.

  • Мы начнем с обзора задач Data Science и постепенно освоим 10 ключевых библиотек Python для работы с данными и их визуализации.

  • На практике научимся решать следующие задачи: очистка данных и поиск отсутствующих значений, прогнозирование и классификация, кластерный анализ данных и поиск взаимосвязей, запуск A/B-тестов и валидация гипотез, отбор признаков и построение моделей Machine Learning.

  • По итогам курса вы сможете проводить разведывательный анализ данных, строить деревья решений и ансамбли для задач классификации и прогнозирования.

В программу курса DATA SCIENCE WITH PYTHON входят:

  1. ИНСТРУМЕНТЫ

    Научитесь работать с цифрами и математическими формулами в NumPy, с табличными данными — в Pandas, с визуализациями — в Matplotlib, Seaborn и Plotly. И овладеете еще 6 библиотеками Python для Data Science.

  2. СИЛЬНЫЙ КОНТЕНТ

    Получите overview основных задач Data Science, разберете базовые типы визуализаций и регрессии, техники построения ансамблей и Machine Learning моделей.

  3. ПРАКТИКА

    Во время обучения вас ждет много практики. Вы будете выполнять сложные домашние задания и получать фидбек от лектора по каждому из них.

  4. КАРЬЕРА

    Значительно расширите стек навыков, сможете внедрить новые решения на текущей работе, заложите фундамент для развития в Data Science и узнаете требования на собеседованиях.

ЛЕКТОР КУРСА DATA SCIENCE WITH PYTHON:

Александра
Кардаш

  • Director of Data Science в Shelf — американском стартапе в сфере knowledge management
  • была одним из первых Data Scientists в Shelf.io и участвовала в развитии DS команды до более чем 15 специалистов
  • имеет 5 лет опыта в Data Science в различных технических отраслях, работала со стартапами от идеи до готового продукта
  • в портфолио ― успешные кейсы в сфере Forecasting & Time Series Analysis, оптимизации, предиктивной аналитики и NLP

ПРОГРАММА КУРСА DATA SCIENCE WITH PYTHON:

  • 01

    Задачи Data Science. Interactive Python и знакомство с NumPy

    • узнаете, чем машинное обучение отличается от классического программирования, и ознакомитесь с видами задач машинного обучения
    • овладеете инструментами для интерактивной работы с Python [IPython, Jupyter Notebook и Google Colaboratory]
    • познакомитесь с библиотекой NumPy
    • научитесь работать с типом данных Array: инициализация, характеристики, копирование, типы данных, reshape, фильтрация, сортировка
    • изучите базовые математические функции Array
    • научитесь создавать массивы и выполнять базовые операции над ними в библиотеке NumPy
  • 02

    NumPy. Линейная алгебра и статистика

    • получите краткий ввод в линейную алгебру и разберете на примерах, как эти математические функции работают в библиотеке NumPy
    • научитесь использовать математические и статистические функции в NumPy
    • сможете вводить и выводить NumPy-матрицы и массивы разной величины
  • 03

    Знакомство с Pandas

    • узнаете, зачем нужна библиотека Pandas и что она позволяет делать с данными
    • ознакомьтесь со структурами данных в Pandas (Series и Dataframe) и научитесь проводить базовые операции над ними
    • научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe
    • научитесь манипулировать табличными данными
    • узнаете, как быстро и удобно работать с табличными данными с помощью Pandas
  • 04

    Визуализация данных

    • ознакомитесь с библиотекой Matplotlib
    • научитесь строить базовые визуализации в Python с помощью Matplotlib
    • узнаете о трех способах визуализировать данные в Pandas Data Frame
    • научитесь строить продвинутые визуализации: heatmap, box plot, pair plot, cumulative plot
    • научитесь строить базовые интерактивные визуализации
  • 05

    Exploratory Data Analysis (EDA) и очистка данных

    • узнаете, что такое Exploratory Data Analysis (EDA) и его основные компоненты
    • научитесь быстро понимать структуру набора данных любого размера
    • узнаете, что делать с пропущенными данными и дубликатами
    • научитесь проводить EDA с помощью Pandas, SweetViz, Pandas Profiling
  • 06

    Поиск и удаление пропущенных значений

    • узнаете, что такое пропущенные значения и почему их нужно прорабатывать
    • ознакомьтесь с типами пропущенных значений (случайные, последствия системной ошибки и т. п.)
    • научитесь обнаруживать пропущенные значения в выборке данных
    • ознакомитесь с разными способами заполнения пропущенных значений и научитесь использовать каждый из них
  • 07

    Задача прогнозирования. Линейная регрессия.
    Градиентный спуск

    • разберете модель простой линейной регрессии и ее математическую основу
    • ознакомитесь с методом наименьших квадратов и методом градиентного спуска
    • научитесь тренировать модель линейной регрессии с помощью библиотеки scikit-learn
    • узнаете, как оценивать качество модели линейной регрессии, и научитесь работать с метриками MSE и RMSE
  • 08

    Другие типы регрессий

    • разберете модель многомерной линейной регрессии и научитесь строить ее с помощью scikit-learn
    • научитесь интерпретировать коэффициенты линейной регрессии
    • разберете модель полиномиальной регрессии
    • узнаете, как оценивать качество модели с помощью метрик MAE, MAPE, R-squared
    • разберете модели гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть»
  • 09

    Выбор наилучшей модели. Техники валидации.
    Поиск гиперпараметров

    • узнаете, зачем разбивать выборку на train/validation/test-выборки
    • поймете, в чем отличие validation- и test-выборок
    • узнаете, что такое гиперпараметры модели и в чем их отличие от параметров
    • ознакомитесь с методами подбора гиперпараметров и научитесь вызывать их в scikit-learn
    • узнаете, что такое перекрестная валидация и как использовать ее в sklearn
    • поймете, что такое overfit и underfit (и почему это проблема)
    • научитесь применять регуляризацию в моделях регрессии
  • 10

    Задача классификации. Логистическая регрессия

    • узнаете, как учить модель логистической регрессии для классификации данных и оценивать ее качество
    • получите алгоритм действий в случае мультиклассовой классификации и поймете, как оценить качество таких моделей
  • 11

    Модель «деревья решений»

    • ознакомитесь с моделью «деревья решений» и узнаете, в чем ее отличие от линейных моделей
    • научитесь строить модель «деревья решений» в scikit-learn
  • 12

    Ансамбли моделей

    • поймете, как работают ансамбли моделей и в чем их преимущества
    • разберете базовые (Max Voting, Averaging, Weighted Averaging) и продвинутые (Stacking, Bagging, Boosting) техники построения ансамблей
    • научитесь строить разные типы ансамблей моделей
    • узнаете, какой способ ансамблирования нужно использовать в случае high bias, а какой — в случае high variance
  • 13

    Алгоритмы бустинга: адаптивный и градиентный бустинг. Библиотеки XGBoost

    • изучите принципы работы адаптивного и градиентного бустинга
    • ознакомитесь с функциями библиотеки XGBoost, разберете ее особенности и преимущества
  • 14

    Кластерный анализ данных

    • рассмотрите модель кластеризации в качестве примера задачи обучения без учителя
    • разберете модели кластеризации K-Means, DBSCAN, Agglomerative Clustering, а также их особенности построения и принципы работы на практике
    • научитесь выявлять группы схожих экземпляров данных с помощью кластеризации
  • 15

    Выбор признаков. Уменьшение размерности данных

    • научитесь уменьшать размерность набора данных с большим количеством признаков
    • научитесь выбирать фичи так, чтобы оставить только наиболее значимые для модели
    • узнаете, как работают и чем отличаются методы уменьшения размерности SVD, PCA и LDA
  • 16

    Статистический анализ данных

    • ознакомитесь с библиотекой SciPy
    • научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин
    • изучите основы проверки статистических гипотез: ошибки I и II рода, p-value
    • узнаете, как проводить А/В-тестирование и проверять гипотезы
  • 17

    Собеседования и требования к ним. Распространенные ошибки в домашних заданиях

Регистрация

 

 
 
 
Регистрируясь, вы соглашаетесь с условиями договора-оферты и политикой конфиденциальности.