Data Science with Python
Олександра Кардаш
Data Scientist у Shelf

16 онлайн-занять
[щопонеділка та щочетверга]
Курс навчить розв'язувати основні задачі Data Science за допомогою поглибленої роботи з Python та його бібліотеками. В результаті ви зможете будувати просунуті візуалізації, знаходити взаємозв'язки в даних, робити прогнози та навчати моделі.
*мова курсу - ua
Data Analysts /
Product Analysts
щоб опанувати бібліотеки Python для Data Science, навчитися за допомогою простого коду проводити маніпуляції над даними та на основі глибокого аналізу пропонувати бізнес-рішення, які точно спрацюють.
щоби проводити Exploratory Data Analysis, робити прогнози та будувати прості ML-моделі. Навчитися знаходити інсайти у графіках та діаграмах, а потім на основі аналізу формулювати та валідувати статистичні гіпотези.

Сфера Data Science покриває величезний пласт завдань: від аналізу великих даних до побудови ML-моделей. Ми почнемо в них розбиратися вже на першому занятті та поступово освоїмо ключові бібліотеки Python для обробки, аналізу та візуалізації даних.
На практиці ми навчимося розв'язувати такі завдання, як: очищення даних та пошук відсутніх значень, прогнозування та класифікація, кластерний аналіз даних та пошук взаємозв'язків, запуск A/B-тестувань та валідація гіпотез, відбір ознак та побудова моделей machine learning. За підсумками курсу ви зможете проводити Exploratory Data Analysis, робити прогнози та розпочати свій шлях у Data Science.
Навчитеся працювати з цифрами та математичними формулами в NumPy, з табличними даними — у Pandas, з візуалізаціями — у Matplotlib, Seaborn та Plotly. І опануєте ще 6 бібліотек Python для Data Science.
Отримаєте overview основних завдань Data Science, розберете базові типи візуалізацій та моделі регресій, техніки побудови ансамблів та machine learning моделей.
Під час навчання на вас чекає багато практики. Ви виконуватимете складні домашні завдання та отримуватимете фідбек від лектора щодо кожного.
Значно розширите стек навичок, зможете впровадити нові рішення на поточній роботі та закладете фундамент для розвитку Data Science.

і знайомство з NumPy
- дізнаєтеся, чим машинне навчання відрізняється від класичного програмування, та ознайомитеся з видами задач машинного навчання
- опануєте інструменти для інтерактивної роботи з Python [IPython, Jupyter Notebook та Google Colaboratory]
- познайомитеся з бібліотекою NumPy
- навчитеся працювати з типом даних Array: ініціалізація, характеристики, копіювання, типи даних, reshape, фільтрація, сортування
- вивчите базові математичні функції Array
- навчитеся створювати масиви та виконувати базові операції над ними в бібліотеці NumPy
- отримаєте коротке введення до лінійної алгебри та розберете на прикладах, як ці математичні функції працюють у бібліотеці NumPy
- навчитеся використовувати математичні та статистичні функції в NumPy
- навчитеся вводити та виводити NumPy-матриці та масиви різної величини
- дізнаєтеся, навіщо потрібна бібліотека Pandas і що вона дозволяє робити з даними
- ознайомитеся зі структурами даних у Pandas (Series та Dataframe) і навчитеся проводити базові операції над ними
- навчитеся створювати, імпортувати та експортувати табличні дані в Pandas Dataframe
- навчитеся маніпулювати табличними даними
- дізнаєтесь, як швидко та зручно працювати з табличними даними за допомогою Pandas
- ознайомитеся з бібліотекою Matplotlib
- навчитеся будувати базові візуалізації в Python за допомогою Matplotlib
- дізнаєтеся про три способи візуалізувати дані в Pandas Data Frame
- навчитеся будувати просунуті візуалізації: heatmap, box plot, pair plot, cumulative plot
- навчитеся будувати базові інтерактивні візуалізації
- дізнаєтеся, що таке Exploratory Data Analysis (EDA) та його основні компоненти
- навчитеся швидко розуміти структуру набору даних будь-якого розміру
- дізнаєтеся, що робити з пропущеними даними та дублікатами
- навчитеся проводити EDA за допомогою Pandas, SweetViz, Pandas Profiling
- дізнаєтеся, що таке пропущені значення та чому їх треба опрацьовувати
- ознайомитеся з типами пропущених значень (випадкові, наслідки системної помилки тощо)
- навчитеся виявляти пропущені значення у вибірці даних
- ознайомитеся з різними способами заповнення пропущених значень і навчитеся використовувати кожен із них
Градієнтний спуск
- розберете модель простої лінійної регресії та її математичну основу
- ознайомитеся з методом найменших квадратів і методом градієнтного спуску
- навчитеся тренувати модель лінійної регресії за допомогою бібліотеки scikit-learn
- дізнаєтесь, як оцінювати якість моделі лінійної регресії, та навчитеся працювати з метриками MSE і RMSE
- розберете модель багатовимірної лінійної регресії та навчитеся будувати її за допомогою scikit-learn
- навчитеся інтерпретувати коефіцієнти лінійної регресії
- розберете модель поліноміальної регресії
- дізнаєтесь, як оцінювати якість моделі за допомогою метрик MAE, MAPE, R-squared
- розберете моделі гребінцевої регресії, регресії за методом LASSO та регресії «еластична мережа»
Пошук гіперпараметрів
- дізнаєтеся, навіщо розбивати вибірку на train/validation/test-вибірки
- зрозумієте, в чому відмінність validation- і test-вибірок
- дізнаєтеся, що таке гіперпараметри моделі та в чому їхня відмінність від параметрів
- ознайомитеся з методами підбору гіперпараметрів і навчитеся викликати їх у scikit-learn
- дізнаєтеся, що таке перехресна валідація та як використовувати її в sklearn
- зрозумієте, що таке overfit i underfit (і чому це проблема)
- навчитеся застосовувати регуляризацію в моделях регресії
- дізнаєтесь, як навчати модель логістичної регресії для класифікації даних і оцінювати її якість
- отримаєте алгоритм дій у випадку мультикласової класифікації та зрозумієте, як оцінити якість таких моделей
- ознайомитеся з моделлю «дерева рішень» і дізнаєтеся, в чому її відмінність від лінійних моделей
- навчитеся будувати модель «дерева рішень» у scikit-learn
- зрозумієте, як працюють ансамблі моделей і в чому їхні переваги
- розберете базові (Max Voting, Averaging, Weighted Averaging) та просунуті (Stacking, Bagging, Boosting) техніки побудови ансамблів
- навчитеся будувати різні типи ансамблів моделей
- дізнаєтеся, який спосіб ансамблювання потрібно використати у випадку high bias, а який — у випадку high variance
градієнтний бустинг. Бібліотеки XGBoost
- вивчите принципи роботи адаптивного і градієнтного бустингів
- ознайомитеся з функціями бібліотеки XGBoost, розберете її особливості та переваги
- розберете модель кластеризації як приклад задачі навчання без учителя
- розберете моделі кластеризації K-Means, DBSCAN, Agglomerative Clustering, а також їхні особливості побудови та принципи роботи на практиці
- навчитеся виявляти групи схожих екземплярів даних за допомогою кластеризації
- навчитеся зменшувати розмірність набору даних із великою кількістю ознак
- навчитеся обирати фічі так, щоб залишити лише найбільш значущі для моделі
- дізнаєтесь, як працюють і чим відрізняються методи зменшення розмірності SVD, PCA та LDA
- ознайомитеся з бібліотекою SciPy
- навчитеся генерувати випадкові величини різних імовірнісних розподілів, проводити тести нормальності та порівнювати розподіли двох випадкових величин
- вивчите основи перевірки статистичних гіпотез: помилки I та II роду, p-value
- дізнаєтесь, як проводити А/В-тестування та перевіряти гіпотези