DATA SCIENCE WITH PYTHON
Живий онлайн-курс з поглибленої роботи з Python та його бібліотеками
Курс для тих, хто хоче навчитися користуватися бібліотеками Python для розв'язання задач аналізу даних.
Навчати та давати фідбек буде Олександра Кардаш, Data Scientist у Shelf.
КУРС ПІДІЙДЕ:
-
ВИ АНАЛІТИК Ви вмієте робити запити до баз даних, використовувати формули в Excel, писати звіти — і хочете перейти на Python, щоби за допомогою простого коду проводити маніпуляції над даними та на основі глибокого аналізу пропонувати бізнес-рішення, які точно спрацюють.
-
ВИ PYTHON-РОЗРОБНИК Ви маєте 1+ рік досвіду програмування на Python, вмієте автоматизувати пайплайни обробки даних та хочете навчитися проводити Exploratory Data Analysis, робити прогнози та будувати прості ML-моделі.
ПРО КУРС:
-
На курсі ви навчитеся використовувати 6 основних бібліотек Python для завдань Data Science та машинного навчання:
- NumPy для роботи з цифрами та Big Data
- Pandas для маніпулювання та швидкої роботи з табличними даними
- Matplotlib, Seaborn та Plotly для побудови візуалізацій (гістограм, діаграм, графіків та карт)
- scikit-learn для тренування моделей лінійної регресії
Ви проводитимете Exploratory Data Analysis, навчатимете моделі дерев рішень для задач регресії й класифікації, робитимете прогнози та розпочнете свій шлях у Data Science.
ДО ПРОГРАМИ КУРСУ ВХОДЯТЬ:
-
ІНСТРУМЕНТИ Навчитеся працювати з цифрами та математичними формулами в NumPy, з табличними даними — у Pandas, з візуалізаціями — у Matplotlib, Seaborn та Plotly. І опануєте ще 6 бібліотек Python для Data Science.
-
СИЛЬНИЙ КОНТЕНТ Отримаєте overview основних завдань Data Science, розберете базові типи візуалізацій та моделі регресій, техніки побудови ансамблів та моделей machine learning.
-
ПРАКТИКА Під час навчання на вас чекає багато практики. Ви виконуватимете складні домашні завдання та отримуватимете фідбек від лектора щодо кожного.
-
КАР'ЄРА Значно розширите стек навичок, зможете впровадити нові рішення на поточній роботі та закладете фундамент для розвитку Data Science.
ЛЕКТОР:
ОЛЕКСАНДРА
КАРДАШ
- Data Scientist у Shelf ― американському стартапі у сфері knowledge management
- була одним із перших Data Scientists у Shelf.io і брала участь у розбудові DS-команди до більш як 15 спеціалістів
- має 5 років досвіду в Data Science у різних технічних галузях, працювала зі стартапами від ідеї до готового продукту
- у портфоліо ― успішні кейси у сфері Forecasting & Time Series Analysis, оптимізації, предиктивній аналітиці та NLP
Програма
-
01
10.08.2023
Задачі Data Science. Interactive Python і знайомство з NumPy
- дізнаєтеся, чим машинне навчання відрізняється від класичного програмування, та ознайомитеся з видами задач машинного навчання
- опануєте інструменти для інтерактивної роботи з Python [IPython, Jupyter Notebook та Google Colaboratory]
- познайомитеся з бібліотекою NumPy
- навчитеся працювати з типом даних Array: ініціалізація, характеристики, копіювання, типи даних, reshape, фільтрація, сортування
- вивчите базові математичні функції Array
- навчитеся створювати масиви та виконувати базові операції над ними в бібліотеці NumPy
-
02
14.08.2023
NumPy. Лінійна алгебра і статистика
- отримаєте коротке введення до лінійної алгебри та розберете на прикладах, як ці математичні функції працюють у бібліотеці NumPy
- навчитеся використовувати математичні та статистичні функції в NumPy
- навчитеся вводити та виводити NumPy-матриці та масиви різної величини
-
03
17.08.2023
Знайомство з Pandas
- дізнаєтеся, навіщо потрібна бібліотека Pandas і що вона дозволяє робити з даними
- ознайомитеся зі структурами даних у Pandas (Series та DataFrame) і навчитеся проводити базові операції над ними
- навчитеся створювати, імпортувати та експортувати табличні дані в Pandas DataFrame
- навчитеся маніпулювати табличними даними
- дізнаєтесь, як швидко та зручно працювати з табличними даними за допомогою Pandas
-
04
21.08.2023
Візуалізація даних
- ознайомитеся з бібліотекою Matplotlib
- навчитеся будувати базові візуалізації в Python за допомогою Matplotlib
- дізнаєтеся про три способи візуалізувати дані в Pandas DataFrame
- навчитеся будувати просунуті візуалізації: heatmap, box plot, pair plot, cumulative plot
- навчитеся будувати базові інтерактивні візуалізації
-
05
28.08.2023
Exploratory Data Analysis (EDA) та очистка даних
- дізнаєтеся, що таке Exploratory Data Analysis (EDA) та його основні компоненти
- навчитеся швидко розуміти структуру набору даних будь-якого розміру
- дізнаєтеся, що робити з пропущеними даними та дублікатами
- навчитеся проводити EDA за допомогою Pandas, SweetViz, Pandas Profiling
-
06
31.08.2023
Пошук та видалення пропущених значень
- дізнаєтеся, що таке пропущені значення та чому їх треба опрацьовувати
- ознайомитеся з типами пропущених значень (випадкові, наслідки системної помилки тощо)
- навчитеся виявляти пропущені значення у вибірці даних
- ознайомитеся з різними способами заповнення пропущених значень і навчитеся використовувати кожен із них
-
07
04.09.2023
Задача прогнозування. Лінійна регресія. Градієнтний спуск
- розберете модель простої лінійної регресії та її математичну основу
- ознайомитеся з методом найменших квадратів і методом градієнтного спуску
- навчитеся тренувати модель лінійної регресії за допомогою бібліотеки scikit-learn
- дізнаєтесь, як оцінювати якість моделі лінійної регресії, та навчитеся працювати з метриками MSE і RMSE
-
08
07.09.2023
Інші типи регресій
- розберете модель багатовимірної лінійної регресії та навчитеся будувати її за допомогою scikit-learn
- навчитесь інтерпретувати коефіцієнти лінійної регресії
- розберете модель поліноміальної регресії
- дізнаєтесь, як оцінювати якість моделі за допомогою метрик MAE, MAPE, R-squared
- розберете моделі гребінцевої регресії, регресії за методом LASSO та регресії «еластична мережа»
-
09
11.09.2023
Вибір найкращої моделі. Техніки валідації. Пошук гіперпараметрів
- дізнаєтеся, навіщо розбивати вибірку на train/validation/test-вибірки
- зрозумієте, в чому відмінність validation- і test-вибірок
- дізнаєтеся, що таке гіперпараметри моделі та в чому їхня відмінність від параметрів
- ознайомитеся з методами підбору гіперпараметрів і навчитеся викликати їх у scikit-learn
- дізнаєтеся, що таке перехресна валідація та як використовувати її в sklearn
- зрозумієте, що таке overfit i underfit (і чому це проблема)
- навчитеся застосовувати регуляризацію в моделях регресії
-
10
14.09.2023
Задача класифікації. Логістична регресія
- дізнаєтесь, як навчати модель логістичної регресії для класифікації даних і оцінювати її якість
- отримаєте алгоритм дій у випадку мультикласової класифікації та зрозумієте, як оцінити якість таких моделей
-
11
18.09.2023
Модель «дерева рішень»
- ознайомитеся з моделлю «дерева рішень» і дізнаєтеся, в чому її відмінність від лінійних моделей
- навчитеся будувати модель «дерева рішень» у scikit-learn
-
12
21.09.2023
Ансамблі моделей
- зрозумієте, як працюють ансамблі моделей і в чому їхні переваги
- розберете базові (Max Voting, Averaging, Weighted Averaging) та просунуті (Stacking, Bagging, Boosting) техніки побудови ансамблів
- навчитеся будувати різні типи ансамблів моделей
- дізнаєтесь, який спосіб ансамблювання потрібно використати у випадку high bias, а який — у випадку high variance
-
13
25.09.2023
Алгоритми бустингу: адаптивний та градієнтний бустинг. Бібліотеки XGBoost
- вивчите принципи роботи адаптивного і градієнтного бустингів
- ознайомитеся з функціями бібліотеки XGBoost, розберете її особливості та переваги
-
14
28.09.2023
Кластерний аналіз даних
- розберете модель кластеризації як приклад задачі навчання без учителя
- розберете моделі кластеризації K-Means, DBSCAN, Agglomerative Clustering, а також особливості їхньої побудови та принципи роботи на практиці
- навчитеся виявляти групи схожих екземплярів даних за допомогою кластеризації
-
15
02.10.2023
Вибір ознак. Зменшення розмірності даних
- навчитеся зменшувати розмірність набору даних із великою кількістю ознак
- навчитесь обирати фічі так, щоби залишити лише найбільш значущі для моделі
- дізнаєтесь, як працюють і чим відрізняються методи зменшення розмірності SVD, PCA та LDA
-
16
05.10.2023
Статистичний аналіз даних
- ознайомитеся з бібліотекою SciPy
- навчитеся генерувати випадкові величини різних імовірнісних розподілів, проводити тести нормальності та порівнювати розподіли двох випадкових величин
- вивчите основи перевірки статистичних гіпотез: помилки I та II роду, p-value
- дізнаєтесь, як проводити А/В-тестування та перевіряти гіпотези
-
17
09.10.2023
Захист курсового проєкту
Реєстрація
Щоб дізнатися більше про курс та вартість участі, зареєструйтеся.