Онлайн-курс
Тривалість:
17 онлайн-занять
щопонеділка та щочетверга
Комплексний курс, на якому ви навчитеся користуватися бібліотеками Python для розв’язання задач дата-саєнтистики, обробки масивів даних та побудови ML-моделей.
На курсі ви:
-
• почнете навчання з огляду задач Data Science
• поступово опануєте 10 ключових бібліотек Python для роботи з даними та їх візуалізації
• навчитеся розв’язувати такі завдання, як-от очищення даних і пошук відсутніх значень, прогнозування й класифікація, кластерний аналіз даних та пошук взаємозв’язків
• зможете запускати A/B-тестування та валідацію гіпотез, відбирати ознаки та будувати моделі Machine Learning
• за підсумками курсу зможете проводити розвідувальний аналіз даних, будувати дерева рішень та ансамблі для завдань класифікації та прогнозування
ДО ПРОГРАМИ КУРСУ DATA SCIENCE WITH PYTHON ВХОДЯТЬ:
-
ІНСТРУМЕНТИ Навчитеся працювати з цифрами та математичними формулами в NumPy, з табличними даними — у Pandas, з візуалізаціями — у Matplotlib, Seaborn та Plotly. І опануєте ще 6 бібліотек Python для Data Science.
-
СИЛЬНИЙ КОНТЕНТ Отримаєте overview основних завдань Data Science, розберете базові типи візуалізацій та моделі регресій, техніки побудови ансамблів та Machine Learning моделей.
-
ПРАКТИКА Під час навчання на вас чекає багато практики. Ви виконуватимете складні домашні завдання та отримуватимете фідбек від лектора щодо кожного з них.
-
КАР’ЄРА Значно розширите стек навичок, зможете впровадити нові рішення на поточній роботі, закладете фундамент для розвитку в Data Science та знатимете вимоги на співбесідах.
ЛЕКТОР КУРСУ DATA SCIENCE WITH PYTHON:
Олександра
Кардаш
- Senior Software Engineer in Google
- former Director of Data Science у Shelf ― американському стартапі у сфері Knowledge Management
- була одним із перших Data Scientists у Shelf.io і брала участь у розбудові DS-команди до понад 15 спеціалістів
- має 5 років досвіду в Data Science у різних технічних галузях, працювала зі стартапами від ідеї до готового продукту
- у портфоліо ― успішні кейси у сфері Forecasting & Time Series Analysis, оптимізації, предиктивної аналітики та NLP
ПРОГРАМА КУРСУ DATA SCIENCE WITH PYTHON:
-
01
7.10 19:30
Задачі Data Science. Interactive Python і знайомство з NumPy
- дізнаєтеся, чим машинне навчання відрізняється від класичного програмування, та ознайомитеся з видами задач машинного навчання
- опануєте інструменти для інтерактивної роботи з Python [IPython, Jupyter Notebook та Google Colaboratory]
- ознайомитеся з бібліотекою NumPy
- навчитеся працювати з типом даних Array: ініціалізація, характеристики, копіювання, типи даних, reshape, фільтрація, сортування
- вивчите базові математичні функції Array
- навчитеся створювати масиви та виконувати базові операції над ними в бібліотеці NumPy
-
02
10.10 19:30
NumPy. Лінійна алгебра і статистика
- отримаєте коротке введення до лінійної алгебри та розберете на прикладах, як ці математичні функції працюють у бібліотеці NumPy
- навчитеся використовувати математичні та статистичні функції в NumPy
- зможете вводити й виводити NumPy-матриці та масиви різної величини
-
03
14.10 19:30
Знайомство з Pandas
- дізнаєтеся, навіщо потрібна бібліотека Pandas і що вона дозволяє робити з даними
- ознайомитеся зі структурами даних у Pandas (Series та Dataframe) і навчитеся проводити базові операції над ними
- навчитеся створювати, імпортувати й експортувати табличні дані в Pandas Dataframe
- навчитеся маніпулювати табличними даними
- дізнаєтесь, як швидко та зручно працювати з табличними даними за допомогою Pandas
-
04
17.10 19:30
Візуалізація даних
- ознайомитеся з бібліотекою Matplotlib
- навчитеся будувати базові візуалізації в Python за допомогою Matplotlib
- дізнаєтеся про три способи візуалізувати дані в Pandas Data Frame
- навчитеся будувати просунуті візуалізації: heatmap, box plot, pair plot, cumulative plot
- навчитеся будувати базові інтерактивні візуалізації
-
05
21.10 19:30
Exploratory Data Analysis (EDA) та очищення даних
- дізнаєтеся, що таке Exploratory Data Analysis (EDA) та його основні компоненти
- навчитеся швидко розуміти структуру набору даних будь-якого розміру
- дізнаєтеся, що робити з пропущеними даними та дублікатами
- навчитеся проводити EDA за допомогою Pandas, SweetViz, Pandas Profiling
-
06
24.10 19:30
Пошук та видалення пропущених значень
- дізнаєтеся, що таке пропущені значення та чому їх треба опрацьовувати
- ознайомитеся з типами пропущених значень (випадкові, наслідки системної помилки тощо)
- навчитеся виявляти пропущені значення у вибірці даних
- ознайомитеся з різними способами заповнення пропущених значень і навчитеся використовувати кожен із них
-
07
28.10 19:20
Задача прогнозування. Лінійна регресія.
Градієнтний спуск- розберете модель простої лінійної регресії та її математичну основу
- ознайомитеся з методом найменших квадратів і методом градієнтного спуску
- навчитеся тренувати модель лінійної регресії за допомогою бібліотеки scikit-learn
- дізнаєтесь, як оцінювати якість моделі лінійної регресії, та навчитеся працювати з метриками MSE і RMSE
-
08
31.10 19:30
Інші типи регресій
- розберете модель багатовимірної лінійної регресії та навчитеся будувати її за допомогою scikit-learn
- навчитеся інтерпретувати коефіцієнти лінійної регресії
- розберете модель поліноміальної регресії
- дізнаєтесь, як оцінювати якість моделі за допомогою метрик MAE, MAPE, R-squared
- розберете моделі гребінцевої регресії, регресії за методом LASSO та регресії «еластична мережа»
-
09
4.11 19:30
Вибір найкращої моделі. Техніки валідації. Пошук гіперпараметрів
- дізнаєтеся, навіщо розбивати вибірку на train/validation/test-вибірки
- зрозумієте, в чому відмінність validation- і test-вибірок
- дізнаєтеся, що таке гіперпараметри моделі та в чому їхня відмінність від параметрів
- ознайомитеся з методами підбору гіперпараметрів і навчитеся викликати їх у scikit-learn
- дізнаєтеся, що таке перехресна валідація та як використовувати її в sklearn
- зрозумієте, що таке overfit i underfit (і чому це проблема)
- навчитеся застосовувати регуляризацію в моделях регресії
-
10
7.11 19:30
Задача класифікації. Логістична регресія
- дізнаєтесь, як навчати модель логістичної регресії для класифікації даних та оцінювати її якість
- отримаєте алгоритм дій у випадку мультикласової класифікації та зрозумієте, як оцінити якість таких моделей
-
11
11.11 19:30
Модель «дерева рішень»
- ознайомитеся з моделлю «дерева рішень» і дізнаєтеся, в чому її відмінність від лінійних моделей
- навчитеся будувати модель «дерева рішень» у scikit-learn
-
12
14.11 19:30
Ансамблі моделей
- зрозумієте, як працюють ансамблі моделей і в чому їхні переваги
- розберете базові (Max Voting, Averaging, Weighted Averaging) та просунуті (Stacking, Bagging, Boosting) техніки побудови ансамблів
- навчитеся будувати різні типи ансамблів моделей
- дізнаєтеся, який спосіб ансамблювання потрібно використати у випадку high bias, а який — у випадку high variance
-
13
18.11 19:30
Алгоритми бустингу: адаптивний та градієнтний бустинг. Бібліотеки XGBoost
- вивчите принципи роботи адаптивного і градієнтного бустингів
- ознайомитеся з функціями бібліотеки XGBoost, розберете її особливості та переваги
-
14
21.11 19:30
Кластерний аналіз даних
- розглянете модель кластеризації як приклад задачі навчання без учителя
- розберете моделі кластеризації K-Means, DBSCAN, Agglomerative Clustering, а також їхні особливості побудови та принципи роботи на практиці
- навчитеся виявляти групи схожих екземплярів даних за допомогою кластеризації
-
15
25.11 19:30
Вибір ознак. Зменшення розмірності даних
- навчитеся зменшувати розмірність набору даних із великою кількістю ознак
- навчитеся обирати фічі так, щоб залишити лише найбільш значущі для моделі
- дізнаєтесь, як працюють і чим відрізняються методи зменшення розмірності SVD, PCA та LDA
-
16
28.11 19:30
Статистичний аналіз даних
- ознайомитеся з бібліотекою SciPy
- навчитеся генерувати випадкові величини різних імовірнісних розподілів, проводити тести нормальності та порівнювати розподіли двох випадкових величин
- вивчите основи перевірки статистичних гіпотез: помилки I та II роду, p-value
- дізнаєтесь, як проводити А/В-тестування та перевіряти гіпотези
-
17
2.12 19:30
Співбесіди й вимоги до них. Розповсюджені помилки в домашніх завданнях
Реєстрація