Онлайн-курс "Data Science with Python" - освойте ключовий інструмент у сфері аналітики та машинного навчання | robot_dreams
  • онлайн-курс
  • 17 занять
  • бібліотеки Python

Data Science with Python

Опануйте бібліотеки Python для роботи з масивами даних та Data Science

Олександра Кардаш

 

Director of Data Science у Shelf

про курс

  • 2 місяці

  • 11 бібліотек Python

Комплексний курс, на якому ви навчитеся користуватися бібліотеками Python для розв’язання задач дата-саєнтистики, обробки масивів даних та побудови ML-моделей.

РЕЗУЛЬТАТИ КУРСУ

  • аналізуєте й візуалізуєте дані за допомогою бібліотек Python, проводите різні маніпуляції над масивами даних

  • заповнюєте прогалини в даних, тестуєте та валідуєте статистичні гіпотези для пошуку інсайтів

  • застосовуєте лінійну та поліноміальну регресію

  • розумієте алгоритми машинного навчання

  • будуєте й навчаєте різні типи ансамблів моделей

ДО ПРОГРАМИ КУРСУ ВХОДЯТЬ

  • ІНСТРУМЕНТИ

    Навчитеся працювати з цифрами та математичними формулами в NumPy, з табличними даними — у Pandas, з візуалізаціями — у Matplotlib, Seaborn та Plotly. І опануєте ще 6 бібліотек Python для Data Science.

  • СИЛЬНИЙ КОНТЕНТ

    Отримаєте overview основних завдань Data Science, розберете базові типи візуалізацій та моделі регресій, техніки побудови ансамблів та Machine Learning моделей.

  • ПРАКТИКА

    Під час навчання на вас чекає багато практики. Ви виконуватимете складні домашні завдання та отримуватимете фідбек від лектора щодо кожного з них.

  • КАР’ЄРА

    Значно розширите стек навичок, зможете впровадити нові рішення на поточній роботі, закладете фундамент для розвитку в Data Science та знатимете вимоги на співбесідах.

лекторка

Олександра Кардаш

Director of Data Science у Shelf ― американському стартапі у сфері Knowledge Management

  • була одним із перших Data Scientists у Shelf.io і брала участь у розбудові DS команди до понад 15 спеціалістів

  • має 5 років досвіду в Data Science у різних технічних галузях, працювала зі стартапами від ідеї до готового продукту

  • у портфоліо ― успішні кейси у сфері Forecasting & Time Series Analysis, оптимізації, предиктивної аналітики та NLP

Програма

  • 01 заняття
    7.10 19:30

    Задачі Data Science. Interactive Python і знайомство з NumPy

    • дізнаєтеся, чим машинне навчання відрізняється від класичного програмування, та ознайомитеся з видами задач машинного навчання
    • опануєте інструменти для інтерактивної роботи з Python [IPython, Jupyter Notebook та Google Colaboratory]
    • ознайомитеся з бібліотекою NumPy
    • навчитеся працювати з типом даних Array: ініціалізація, характеристики, копіювання, типи даних, reshape, фільтрація, сортування
    • вивчите базові математичні функції Array
    • навчитеся створювати масиви та виконувати базові операції над ними в бібліотеці NumPy
  • 02 заняття
    10.10 19:30

    NumPy. Лінійна алгебра і статистика

    • отримаєте короткий вступ до лінійної алгебри та розберете на прикладах, як ці математичні функції працюють у бібліотеці NumPy
    • навчитеся використовувати математичні та статистичні функції в NumPy
    • зможете вводити й виводити NumPy-матриці та масиви різної величини
  • 03 заняття
    14.10 19:30

    Знайомство з Pandas

    • дізнаєтеся, навіщо потрібна бібліотека Pandas і що вона дає змогу робити з даними
    • ознайомитеся зі структурами даних у Pandas (Series та Dataframe) і навчитеся проводити базові операції над ними
    • навчитеся створювати, імпортувати й експортувати табличні дані в Pandas Dataframe
    • навчитеся маніпулювати табличними даними
    • дізнаєтесь, як швидко та зручно працювати з табличними даними за допомогою Pandas
  • 04 заняття
    17.10 19:30

    Візуалізація даних

    • ознайомитеся з бібліотекою Matplotlib
    • навчитеся будувати базові візуалізації в Python за допомогою Matplotlib
    • дізнаєтеся про три способи візуалізувати дані в Pandas Data Frame
    • навчитеся будувати просунуті візуалізації: heatmap, box plot, pair plot, cumulative plot навчитеся будувати базові інтерактивні візуалізації
  • 05 заняття
    21.10 19:30

    Exploratory Data Analysis (EDA) та очищення даних

    • дізнаєтеся, що таке Exploratory Data Analysis (EDA) та його основні компоненти
    • навчитеся швидко розуміти структуру набору даних будь-якого розміру
    • дізнаєтеся, що робити з пропущеними даними та дублікатами
    • навчитеся проводити EDA за допомогою Pandas, SweetViz, Pandas Profiling
  • 06 заняття
    24.10 19:30

    Пошук та видалення пропущених значень

    • дізнаєтеся, що таке пропущені значення та чому їх треба опрацьовувати
    • ознайомитеся з типами пропущених значень (випадкові, наслідки системної помилки тощо)
    • навчитеся виявляти пропущені значення у вибірці даних
    • розглянете різні способи заповнення пропущених значень і навчитеся
  • 07 заняття
    28.10 19:30

    Задача прогнозування. Лінійна регресія. Градієнтний спуск

    • розберете модель простої лінійної регресії та її математичну основу
    • ознайомитеся з методом найменших квадратів і методом градієнтного спуску
    • навчитеся тренувати модель лінійної регресії за допомогою бібліотеки scikit-learn
    • дізнаєтесь, як оцінювати якість моделі лінійної регресії, та навчитеся працювати з метриками MSE і RMSE
  • 08 заняття
    31.10 19:30

    Інші типи регресій

    • розберете модель багатовимірної лінійної регресії та навчитеся будувати її за допомогою scikit-learn
    • навчитеся інтерпретувати коефіцієнти лінійної регресії
    • розберете модель поліноміальної регресії
    • дізнаєтесь, як оцінювати якість моделі за допомогою метрик MAE, MAPE, R-squared
    • розберете моделі гребінцевої регресії, регресії за методом LASSO та регресії «еластична мережа»
  • 09 заняття
    4.11 19:30

    Вибір найкращої моделі. Техніки валідації. Пошук гіперпараметрів

    • дізнаєтеся, навіщо розбивати вибірку на train/validation/test-вибірки
    • зрозумієте, в чому відмінність validation- і test-вибірок
    • дізнаєтеся, що таке гіперпараметри моделі та в чому їхня відмінність від параметрів
    • ознайомитеся з методами підбору гіперпараметрів і навчитеся викликати їх у scikit-learn
    • дізнаєтеся, що таке перехресна валідація та як використовувати її в sklearn
    • зрозумієте, що таке overfit i underfit (і чому це проблема)
    • навчитеся застосовувати регуляризацію в моделях регресії
  • 10 заняття
    7.11 19:30

    Задача класифікації. Логістична регресія

    • дізнаєтесь, як навчати модель логістичної регресії для класифікації даних та оцінювати її якість
    • отримаєте алгоритм дій у випадку мультикласової класифікації та зрозумієте, як оцінити якість таких моделей
  • 11 заняття
    11.11 19:30

    Модель «дерева рішень»

    • ознайомитеся з моделлю «дерева рішень» і дізнаєтеся, в чому її відмінність від лінійних моделей
    • навчитеся будувати модель «дерева рішень» у scikit-learn
  • 12 заняття
    14.11 19:30

    Ансамблі моделей

    • зрозумієте, як працюють ансамблі моделей і в чому їхні переваги
    • розберете базові (Max Voting, Averaging, Weighted Averaging) та просунуті (Stacking, Bagging, Boosting) техніки побудови ансамблів
    • навчитеся будувати різні типи ансамблів моделей
    • дізнаєтеся, який спосіб ансамблювання потрібно використати у випадку high bias, а який — у випадку high variance
  • 13 заняття
    18.11 19:30

    Алгоритми бустингу: адаптивний та градієнтний бустинг. Бібліотеки XGBoost

    • вивчите принципи роботи адаптивного і градієнтного бустингів
    • ознайомитеся з функціями бібліотеки XGBoost, розберете її особливості та переваги
  • 14 заняття
    21.11 19:30

    Кластерний аналіз даних

    • розглянете модель кластеризації як приклад задачі навчання без учителя
    • розберете моделі кластеризації K-Means, DBSCAN, Agglomerative Clustering, а також їхні особливості побудови та принципи роботи на практиці
    • навчитеся виявляти групи схожих екземплярів даних за допомогою кластеризації
  • 15 заняття
    25.11 19:30

    Вибір ознак. Зменшення розмірності даних

    • навчитеся зменшувати розмірність набору даних із великою кількістю ознак
    • навчитеся обирати фічі так, щоб залишити лише найбільш значущі для моделі
    • дізнаєтесь, як працюють і чим відрізняються методи зменшення розмірності SVD, PCA та LDA
  • 16 заняття
    28.11 19:30

    Статистичний аналіз даних

    • ознайомитеся з бібліотекою SciPy
    • навчитеся генерувати випадкові величини різних імовірнісних розподілів, проводити тести нормальності та порівнювати розподіли двох випадкових величин
    • вивчите основи перевірки статистичних гіпотез: помилки I та II роду, p-value
    • дізнаєтесь, як проводити А/В-тестування та перевіряти гіпотези
  • 17 заняття
    2.12 19:30

    Співбесіди й вимоги до них. Розповсюджені помилки у домашніх завданнях

реєстрація

Реєструйтеся на курс та зростайте в роботі з даними

 
 
 
Реєструючись, ви погоджуєтеся з умовами договору-оферти та політикою конфіденційності.