Онлайн-курс "Data Science with Python" - освойте ключовий інструмент у сфері аналітики та машинного навчання | robot_dreams

Опануйте бібліотеки Python для обробки масивів даних

Data Science with Python

Олександра Кардаш Director of Data Science у Shelf Старт курсу у вересні 2024

Онлайн-курс

Тривалість:

17 онлайн-занять
щопонеділка та щочетверга

Комплексний курс, на якому ви навчитеся користуватися бібліотеками Python для розв’язання задач дата-саєнтистики, обробки масивів даних та побудови ML-моделей.

  • Ми почнемо з огляду задач Data Science і поступово опануємо 10 ключових бібліотек Python для роботи з даними та їх візуалізації.

  • На практиці навчимося розв’язувати такі завдання: очищення даних та пошук відсутніх значень, прогнозування та класифікація, кластерний аналіз даних та пошук взаємозв’язків, запуск A/B-тестувань та валідація гіпотез, відбір ознак та побудова моделей Machine Learning.

  • За підсумками курсу ви зможете проводити розвідувальний аналіз даних, будувати дерева рішень та ансамблі для завдань класифікації та прогнозування.

ДО ПРОГРАМИ КУРСУ DATA SCIENCE WITH PYTHON ВХОДЯТЬ:

  1. ІНСТРУМЕНТИ

    Навчитеся працювати з цифрами та математичними формулами в NumPy, з табличними даними — у Pandas, з візуалізаціями — у Matplotlib, Seaborn та Plotly. І опануєте ще 6 бібліотек Python для Data Science.

  2. СИЛЬНИЙ КОНТЕНТ

    Отримаєте overview основних завдань Data Science, розберете базові типи візуалізацій та моделі регресій, техніки побудови ансамблів та Machine Learning моделей.

  3. ПРАКТИКА

    Під час навчання на вас чекає багато практики. Ви виконуватимете складні домашні завдання та отримуватимете фідбек від лектора щодо кожного з них.

  4. КАР’ЄРА

    Значно розширите стек навичок, зможете впровадити нові рішення на поточній роботі, закладете фундамент для розвитку в Data Science та знатимете вимоги на співбесідах.

ЛЕКТОР КУРСУ DATA SCIENCE WITH PYTHON:

Олександра
Кардаш

  • Director of Data Science у Shelf ― американському стартапі у сфері knowledge management
  • була одним з перших Data Scientists у Shelf.io і брала участь у розбудові DS команди до понад 15 спеціалістів
  • має 5 років досвіду в Data Science у різних технічних галузях, працювала зі стартапами від ідеї до готового продукту
  • у портфоліо ― успішні кейси у сфері Forecasting & Time Series Analysis, оптимізації, предиктивної аналітики та NLP

ПРОГРАМА КУРСУ DATA SCIENCE WITH PYTHON:

  • 01

    Задачі Data Science. Interactive Python і знайомство з NumPy

    • дізнаєтеся, чим машинне навчання відрізняється від класичного програмування, та ознайомитеся з видами задач машинного навчання
    • опануєте інструменти для інтерактивної роботи з Python [IPython, Jupyter Notebook та Google Colaboratory]
    • познайомитеся з бібліотекою NumPy
    • навчитеся працювати з типом даних Array: ініціалізація, характеристики, копіювання, типи даних, reshape, фільтрація, сортування
    • вивчите базові математичні функції Array
    • навчитеся створювати масиви та виконувати базові операції над ними в бібліотеці NumPy
  • 02

    NumPy. Лінійна алгебра і статистика

    • отримаєте коротке введення до лінійної алгебри та розберете на прикладах, як ці математичні функції працюють у бібліотеці NumPy
    • навчитеся використовувати математичні та статистичні функції в NumPy
    • зможете вводити й виводити NumPy-матриці та масиви різної величини
  • 03

    Знайомство з Pandas

    • дізнаєтеся, навіщо потрібна бібліотека Pandas і що вона дозволяє робити з даними
    • ознайомитеся зі структурами даних у Pandas (Series та Dataframe) і навчитеся проводити базові операції над ними
    • навчитеся створювати, імпортувати та експортувати табличні дані в Pandas Dataframe
    • навчитеся маніпулювати табличними даними
    • дізнаєтесь, як швидко та зручно працювати з табличними даними за допомогою Pandas
  • 04

    Візуалізація даних

    • ознайомитеся з бібліотекою Matplotlib
    • навчитеся будувати базові візуалізації в Python за допомогою Matplotlib
    • дізнаєтеся про три способи візуалізувати дані в Pandas Data Frame
    • навчитеся будувати просунуті візуалізації: heatmap, box plot, pair plot, cumulative plot
    • навчитеся будувати базові інтерактивні візуалізації
  • 05

    Exploratory Data Analysis (EDA) та очищення даних

    • дізнаєтеся, що таке Exploratory Data Analysis (EDA) та його основні компоненти
    • навчитеся швидко розуміти структуру набору даних будь-якого розміру
    • дізнаєтеся, що робити з пропущеними даними та дублікатами
    • навчитеся проводити EDA за допомогою Pandas, SweetViz, Pandas Profiling
  • 06

    Пошук та видалення пропущених значень

    • дізнаєтеся, що таке пропущені значення та чому їх треба опрацьовувати
    • ознайомитеся з типами пропущених значень (випадкові, наслідки системної помилки тощо)
    • навчитеся виявляти пропущені значення у вибірці даних
    • ознайомитеся з різними способами заповнення пропущених значень і навчитеся використовувати кожен із них
  • 07

    Задача прогнозування. Лінійна регресія.
    Градієнтний спуск

    • розберете модель простої лінійної регресії та її математичну основу
    • ознайомитеся з методом найменших квадратів і методом градієнтного спуску
    • навчитеся тренувати модель лінійної регресії за допомогою бібліотеки scikit-learn
    • дізнаєтесь, як оцінювати якість моделі лінійної регресії, та навчитеся працювати з метриками MSE і RMSE
  • 08

    Інші типи регресій

    • розберете модель багатовимірної лінійної регресії та навчитеся будувати її за допомогою scikit-learn
    • навчитеся інтерпретувати коефіцієнти лінійної регресії
    • розберете модель поліноміальної регресії
    • дізнаєтесь, як оцінювати якість моделі за допомогою метрик MAE, MAPE, R-squared
    • розберете моделі гребінцевої регресії, регресії за методом LASSO та регресії «еластична мережа»
  • 09

    Вибір найкращої моделі. Техніки валідації.
    Пошук гіперпараметрів

    • дізнаєтеся, навіщо розбивати вибірку на train/validation/test-вибірки
    • зрозумієте, в чому відмінність validation- і test-вибірок
    • дізнаєтеся, що таке гіперпараметри моделі та в чому їхня відмінність від параметрів
    • ознайомитеся з методами підбору гіперпараметрів і навчитеся викликати їх у scikit-learn
    • дізнаєтеся, що таке перехресна валідація та як використовувати її в sklearn
    • зрозумієте, що таке overfit i underfit (і чому це проблема)
    • навчитеся застосовувати регуляризацію в моделях регресії
  • 10

    Задача класифікації. Логістична регресія

    • дізнаєтесь, як навчати модель логістичної регресії для класифікації даних і оцінювати її якість
    • отримаєте алгоритм дій у випадку мультикласової класифікації та зрозумієте, як оцінити якість таких моделей
  • 11

    Модель «дерева рішень»

    • ознайомитеся з моделлю «дерева рішень» і дізнаєтеся, в чому її відмінність від лінійних моделей
    • навчитеся будувати модель «дерева рішень» у scikit-learn
  • 12

    Ансамблі моделей

    • зрозумієте, як працюють ансамблі моделей і в чому їхні переваги
    • розберете базові (Max Voting, Averaging, Weighted Averaging) та просунуті (Stacking, Bagging, Boosting) техніки побудови ансамблів
    • навчитеся будувати різні типи ансамблів моделей
    • дізнаєтеся, який спосіб ансамблювання потрібно використати у випадку high bias, а який — у випадку high variance
  • 13

    Алгоритми бустингу: адаптивний та градієнтний бустинг.
    Бібліотеки XGBoost

    • вивчите принципи роботи адаптивного і градієнтного бустингів
    • ознайомитеся з функціями бібліотеки XGBoost, розберете її особливості та переваги
  • 14

    Кластерний аналіз даних

    • розглянете модель кластеризації як приклад задачі навчання без учителя
    • розберете моделі кластеризації K-Means, DBSCAN, Agglomerative Clustering, а також їхні особливості побудови та принципи роботи на практиці
    • навчитеся виявляти групи схожих екземплярів даних за допомогою кластеризації
  • 15

    Вибір ознак. Зменшення розмірності даних

    • навчитеся зменшувати розмірність набору даних із великою кількістю ознак
    • навчитеся обирати фічі так, щоб залишити лише найбільш значущі для моделі
    • дізнаєтесь, як працюють і чим відрізняються методи зменшення розмірності SVD, PCA та LDA
  • 16

    Статистичний аналіз даних

    • ознайомитеся з бібліотекою SciPy
    • навчитеся генерувати випадкові величини різних імовірнісних розподілів, проводити тести нормальності та порівнювати розподіли двох випадкових величин
    • вивчите основи перевірки статистичних гіпотез: помилки I та II роду, p-value
    • дізнаєтесь, як проводити А/В-тестування та перевіряти гіпотези
  • 17

    Співбесіди й вимоги до них. Розповсюджені помилки у домашніх завданнях

Реєстрація

 

 
 
 
Реєструючись, ви погоджуєтеся з умовами договору-оферти та політикою конфіденційності.