Data Science with Python
Опануйте бібліотеки Python для роботи з масивами даних та Data Science
Олександра Кардаш
Director of Data Science у Shelf
![](https://robot-site-static.fra1.digitaloceanspaces.com/cc/ckeditor/landings/185-python-dlya-data-science/master/1.webp)
про курс
-
2 місяці
-
11 бібліотек Python
Комплексний курс, на якому ви навчитеся користуватися бібліотеками Python для розв’язання задач дата-саєнтистики, обробки масивів даних та побудови ML-моделей.
РЕЗУЛЬТАТИ КУРСУ
-
аналізуєте й візуалізуєте дані за допомогою бібліотек Python, проводите різні маніпуляції над масивами даних
-
заповнюєте прогалини в даних, тестуєте та валідуєте статистичні гіпотези для пошуку інсайтів
-
застосовуєте лінійну та поліноміальну регресію
-
розумієте алгоритми машинного навчання
-
будуєте й навчаєте різні типи ансамблів моделей
![](https://robot-site-static.fra1.digitaloceanspaces.com/cc/ckeditor/landings/185-python-dlya-data-science/master/3-block.webp)
ДО ПРОГРАМИ КУРСУ ВХОДЯТЬ
-
ІНСТРУМЕНТИ
Навчитеся працювати з цифрами та математичними формулами в NumPy, з табличними даними — у Pandas, з візуалізаціями — у Matplotlib, Seaborn та Plotly. І опануєте ще 6 бібліотек Python для Data Science.
-
СИЛЬНИЙ КОНТЕНТ
Отримаєте overview основних завдань Data Science, розберете базові типи візуалізацій та моделі регресій, техніки побудови ансамблів та Machine Learning моделей.
-
ПРАКТИКА
Під час навчання на вас чекає багато практики. Ви виконуватимете складні домашні завдання та отримуватимете фідбек від лектора щодо кожного з них.
-
КАР’ЄРА
Значно розширите стек навичок, зможете впровадити нові рішення на поточній роботі, закладете фундамент для розвитку в Data Science та знатимете вимоги на співбесідах.
лекторка
![](https://robot-site-static.fra1.digitaloceanspaces.com/cc/ckeditor/landings/185-python-dlya-data-science/master/2.webp)
Олександра Кардаш
Director of Data Science у Shelf ― американському стартапі у сфері Knowledge Management
-
була одним із перших Data Scientists у Shelf.io і брала участь у розбудові DS команди до понад 15 спеціалістів
-
має 5 років досвіду в Data Science у різних технічних галузях, працювала зі стартапами від ідеї до готового продукту
-
у портфоліо ― успішні кейси у сфері Forecasting & Time Series Analysis, оптимізації, предиктивної аналітики та NLP
Програма
-
01 заняття7.10 19:30
Задачі Data Science. Interactive Python і знайомство з NumPy
- дізнаєтеся, чим машинне навчання відрізняється від класичного програмування, та ознайомитеся з видами задач машинного навчання
- опануєте інструменти для інтерактивної роботи з Python [IPython, Jupyter Notebook та Google Colaboratory]
- ознайомитеся з бібліотекою NumPy
- навчитеся працювати з типом даних Array: ініціалізація, характеристики, копіювання, типи даних, reshape, фільтрація, сортування
- вивчите базові математичні функції Array
- навчитеся створювати масиви та виконувати базові операції над ними в бібліотеці NumPy
-
02 заняття10.10 19:30
NumPy. Лінійна алгебра і статистика
- отримаєте короткий вступ до лінійної алгебри та розберете на прикладах, як ці математичні функції працюють у бібліотеці NumPy
- навчитеся використовувати математичні та статистичні функції в NumPy
- зможете вводити й виводити NumPy-матриці та масиви різної величини
-
03 заняття14.10 19:30
Знайомство з Pandas
- дізнаєтеся, навіщо потрібна бібліотека Pandas і що вона дає змогу робити з даними
- ознайомитеся зі структурами даних у Pandas (Series та Dataframe) і навчитеся проводити базові операції над ними
- навчитеся створювати, імпортувати й експортувати табличні дані в Pandas Dataframe
- навчитеся маніпулювати табличними даними
- дізнаєтесь, як швидко та зручно працювати з табличними даними за допомогою Pandas
-
04 заняття17.10 19:30
Візуалізація даних
- ознайомитеся з бібліотекою Matplotlib
- навчитеся будувати базові візуалізації в Python за допомогою Matplotlib
- дізнаєтеся про три способи візуалізувати дані в Pandas Data Frame
- навчитеся будувати просунуті візуалізації: heatmap, box plot, pair plot, cumulative plot навчитеся будувати базові інтерактивні візуалізації
-
05 заняття21.10 19:30
Exploratory Data Analysis (EDA) та очищення даних
- дізнаєтеся, що таке Exploratory Data Analysis (EDA) та його основні компоненти
- навчитеся швидко розуміти структуру набору даних будь-якого розміру
- дізнаєтеся, що робити з пропущеними даними та дублікатами
- навчитеся проводити EDA за допомогою Pandas, SweetViz, Pandas Profiling
-
06 заняття24.10 19:30
Пошук та видалення пропущених значень
- дізнаєтеся, що таке пропущені значення та чому їх треба опрацьовувати
- ознайомитеся з типами пропущених значень (випадкові, наслідки системної помилки тощо)
- навчитеся виявляти пропущені значення у вибірці даних
- розглянете різні способи заповнення пропущених значень і навчитеся
-
07 заняття28.10 19:30
Задача прогнозування. Лінійна регресія. Градієнтний спуск
- розберете модель простої лінійної регресії та її математичну основу
- ознайомитеся з методом найменших квадратів і методом градієнтного спуску
- навчитеся тренувати модель лінійної регресії за допомогою бібліотеки scikit-learn
- дізнаєтесь, як оцінювати якість моделі лінійної регресії, та навчитеся працювати з метриками MSE і RMSE
-
08 заняття31.10 19:30
Інші типи регресій
- розберете модель багатовимірної лінійної регресії та навчитеся будувати її за допомогою scikit-learn
- навчитеся інтерпретувати коефіцієнти лінійної регресії
- розберете модель поліноміальної регресії
- дізнаєтесь, як оцінювати якість моделі за допомогою метрик MAE, MAPE, R-squared
- розберете моделі гребінцевої регресії, регресії за методом LASSO та регресії «еластична мережа»
-
09 заняття4.11 19:30
Вибір найкращої моделі. Техніки валідації. Пошук гіперпараметрів
- дізнаєтеся, навіщо розбивати вибірку на train/validation/test-вибірки
- зрозумієте, в чому відмінність validation- і test-вибірок
- дізнаєтеся, що таке гіперпараметри моделі та в чому їхня відмінність від параметрів
- ознайомитеся з методами підбору гіперпараметрів і навчитеся викликати їх у scikit-learn
- дізнаєтеся, що таке перехресна валідація та як використовувати її в sklearn
- зрозумієте, що таке overfit i underfit (і чому це проблема)
- навчитеся застосовувати регуляризацію в моделях регресії
-
10 заняття7.11 19:30
Задача класифікації. Логістична регресія
- дізнаєтесь, як навчати модель логістичної регресії для класифікації даних та оцінювати її якість
- отримаєте алгоритм дій у випадку мультикласової класифікації та зрозумієте, як оцінити якість таких моделей
-
11 заняття11.11 19:30
Модель «дерева рішень»
- ознайомитеся з моделлю «дерева рішень» і дізнаєтеся, в чому її відмінність від лінійних моделей
- навчитеся будувати модель «дерева рішень» у scikit-learn
-
12 заняття14.11 19:30
Ансамблі моделей
- зрозумієте, як працюють ансамблі моделей і в чому їхні переваги
- розберете базові (Max Voting, Averaging, Weighted Averaging) та просунуті (Stacking, Bagging, Boosting) техніки побудови ансамблів
- навчитеся будувати різні типи ансамблів моделей
- дізнаєтеся, який спосіб ансамблювання потрібно використати у випадку high bias, а який — у випадку high variance
-
13 заняття18.11 19:30
Алгоритми бустингу: адаптивний та градієнтний бустинг. Бібліотеки XGBoost
- вивчите принципи роботи адаптивного і градієнтного бустингів
- ознайомитеся з функціями бібліотеки XGBoost, розберете її особливості та переваги
-
14 заняття21.11 19:30
Кластерний аналіз даних
- розглянете модель кластеризації як приклад задачі навчання без учителя
- розберете моделі кластеризації K-Means, DBSCAN, Agglomerative Clustering, а також їхні особливості побудови та принципи роботи на практиці
- навчитеся виявляти групи схожих екземплярів даних за допомогою кластеризації
-
15 заняття25.11 19:30
Вибір ознак. Зменшення розмірності даних
- навчитеся зменшувати розмірність набору даних із великою кількістю ознак
- навчитеся обирати фічі так, щоб залишити лише найбільш значущі для моделі
- дізнаєтесь, як працюють і чим відрізняються методи зменшення розмірності SVD, PCA та LDA
-
16 заняття28.11 19:30
Статистичний аналіз даних
- ознайомитеся з бібліотекою SciPy
- навчитеся генерувати випадкові величини різних імовірнісних розподілів, проводити тести нормальності та порівнювати розподіли двох випадкових величин
- вивчите основи перевірки статистичних гіпотез: помилки I та II роду, p-value
- дізнаєтесь, як проводити А/В-тестування та перевіряти гіпотези
-
17 заняття2.12 19:30
Співбесіди й вимоги до них. Розповсюджені помилки у домашніх завданнях
реєстрація
Реєструйтеся на курс та зростайте в роботі з даними