Data Science with Python

Олександра Кардаш

Senior Software Engineer в

Google

про курс

Дата:
27.01.2025–27.03.2025
Тривалість:
10 тижнів
Наполнение:
10 бібліотек Python

За 17 занять навчитеся використовувати Python та його бібліотеки для розв’язання завдань Data Science — бази, на якій сформувалася велика кількість сучасних технологій: від Computer Vision до генеративного ШІ та Machine Learning.

На курсі ви:

почнете навчання з огляду задач Data Science
опануєте 10 ключових бібліотек Python для роботи з даними та їхньої візуалізації: NumPy, Pandas, Matplotlib, Seaborn та інші
навчитеся розв’язувати такі завдання, як-от очищення даних і пошук відсутніх значень, прогнозування й класифікація, кластерний аналіз даних та пошук взаємозв’язків
зможете запускати A/B-тестування та валідацію гіпотез, відбирати ознаки та будувати моделі Machine Learning
в результаті зможете проводити розвідувальний аналіз даних, будувати дерева рішень та ансамблі для завдань класифікації та прогнозування

КУРС ПІДІЙДЕ ВСІМ, ХТО ЗНАЄ БАЗУ PYTHON ТА ХОЧЕ:

проводити маніпуляції над даними за допомогою простого коду
пропонувати бізнес-рішення на основі глибокого аналізу, які точно спрацюють
робити Exploratory Data Analysis прогнози та будувати прості ML-моделі
навчитися знаходити інсайти у графіках та діаграмах
формулювати й валідувати статистичні гіпотези на основі аналізу

лекторка

Олександра Кардаш

Senior Software Engineer в Google

former Director of Data Science у Shelf ― американському стартапі у сфері Knowledge Management
була однією із перших Data Scientists у Shelf.io і брала участь у розбудові DS-команди до понад 15 спеціалістів
має 5 років досвіду в Data Science у різних технічних галузях, працювала зі стартапами від ідеї до готового продукту

Програма

01 заняття
27.01.2025 19:30

Задачі Data Science. Interactive Python і знайомство з NumPy
- дізнаєтеся, чим машинне навчання відрізняється від класичного програмування, та ознайомитеся з видами задач машинного навчання
- опануєте інструменти для інтерактивної роботи з Python [IPython, Jupyter Notebook та Google Colaboratory]
- ознайомитеся з бібліотекою NumPy
- навчитеся працювати з типом даних Array: ініціалізація, характеристики, копіювання, типи даних, reshape, фільтрація, сортування
- вивчите базові математичні функції Array
- навчитеся створювати масиви та виконувати базові операції над ними в бібліотеці NumPy
02 заняття
30.01.2025 19:30

NumPy. Лінійна алгебра і статистика
- отримаєте короткий вступ до лінійної алгебри та розберете на прикладах, як ці математичні функції працюють у бібліотеці NumPy
- навчитеся використовувати математичні та статистичні функції в NumPy
- зможете вводити й виводити NumPy-матриці та масиви різної величини
03 заняття
06.02.2025 19:30

Знайомство з Pandas
- дізнаєтеся, навіщо потрібна бібліотека Pandas і що вона дає змогу робити з даними
- ознайомитеся зі структурами даних у Pandas (Series та Dataframe) і навчитеся проводити базові операції над ними
- навчитеся створювати, імпортувати й експортувати табличні дані в Pandas Dataframe
- навчитеся маніпулювати табличними даними
- дізнаєтесь, як швидко та зручно працювати з табличними даними за допомогою Pandas

04 заняття
10.02.2025 19:30

Візуалізація даних
- ознайомитеся з бібліотекою Matplotlib
- навчитеся будувати базові візуалізації в Python за допомогою Matplotlib
- дізнаєтеся про три способи візуалізувати дані в Pandas Data Frame
- навчитеся будувати просунуті візуалізації: heatmap, box plot, pair plot, cumulative plot навчитеся будувати базові інтерактивні візуалізації
05 заняття
13.02.2025 19:30

Exploratory Data Analysis (EDA) та очищення даних
- дізнаєтеся, що таке Exploratory Data Analysis (EDA) та його основні компоненти
- навчитеся швидко розуміти структуру набору даних будь-якого розміру
- дізнаєтеся, що робити з пропущеними даними та дублікатами
- навчитеся проводити EDA за допомогою Pandas, SweetViz, Pandas Profiling
06 заняття
17.02.2025 19:30

Пошук та видалення пропущених значень
- дізнаєтеся, що таке пропущені значення та чому їх треба опрацьовувати
- ознайомитеся з типами пропущених значень (випадкові, наслідки системної помилки тощо)
- навчитеся виявляти пропущені значення у вибірці даних
- розглянете різні способи заповнення пропущених значень і навчитеся
07 заняття
20.02.2025 19:30

Задача прогнозування. Лінійна регресія. Градієнтний спуск
- розберете модель простої лінійної регресії та її математичну основу
- ознайомитеся з методом найменших квадратів і методом градієнтного спуску
- навчитеся тренувати модель лінійної регресії за допомогою бібліотеки scikit-learn
- дізнаєтесь, як оцінювати якість моделі лінійної регресії, та навчитеся працювати з метриками MSE і RMSE
08 заняття
24.02.2025 19:30

Інші типи регресій
- розберете модель багатовимірної лінійної регресії та навчитеся будувати її за допомогою scikit-learn
- навчитеся інтерпретувати коефіцієнти лінійної регресії
- розберете модель поліноміальної регресії
- дізнаєтесь, як оцінювати якість моделі за допомогою метрик MAE, MAPE, R-squared
- розберете моделі гребінцевої регресії, регресії за методом LASSO та регресії «еластична мережа»
09 заняття
27.02.2025 19:30

Вибір найкращої моделі. Техніки валідації. Пошук гіперпараметрів
- дізнаєтеся, навіщо розбивати вибірку на train/validation/test-вибірки
- зрозумієте, в чому відмінність validation- і test-вибірок
- дізнаєтеся, що таке гіперпараметри моделі та в чому їхня відмінність від параметрів
- ознайомитеся з методами підбору гіперпараметрів і навчитеся викликати їх у scikit-learn
- дізнаєтеся, що таке перехресна валідація та як використовувати її в sklearn
- зрозумієте, що таке overfit i underfit (і чому це проблема)
- навчитеся застосовувати регуляризацію в моделях регресії
10 заняття
03.03.2025 19:30

Задача класифікації. Логістична регресія
- дізнаєтесь, як навчати модель логістичної регресії для класифікації даних та оцінювати її якість
- отримаєте алгоритм дій у випадку мультикласової класифікації та зрозумієте, як оцінити якість таких моделей
11 заняття
06.03.2025 19:30

Модель «дерева рішень»
- ознайомитеся з моделлю «дерева рішень» і дізнаєтеся, в чому її відмінність від лінійних моделей
- навчитеся будувати модель «дерева рішень» у scikit-learn
12 заняття
10.03.2025 19:30

Ансамблі моделей
- зрозумієте, як працюють ансамблі моделей і в чому їхні переваги
- розберете базові (Max Voting, Averaging, Weighted Averaging) та просунуті (Stacking, Bagging, Boosting) техніки побудови ансамблів
- навчитеся будувати різні типи ансамблів моделей
- дізнаєтеся, який спосіб ансамблювання потрібно використати у випадку high bias, а який — у випадку high variance
13 заняття
13.03.2025 19:30

Алгоритми бустингу: адаптивний та градієнтний бустинг. Бібліотеки XGBoost
- вивчите принципи роботи адаптивного і градієнтного бустингів
- ознайомитеся з функціями бібліотеки XGBoost, розберете її особливості та переваги
14 заняття
17.03.2025 19:30

Кластерний аналіз даних
- розглянете модель кластеризації як приклад задачі навчання без учителя
- розберете моделі кластеризації K-Means, DBSCAN, Agglomerative Clustering, а також їхні особливості побудови та принципи роботи на практиці
- навчитеся виявляти групи схожих екземплярів даних за допомогою кластеризації
15 заняття
20.03.2025 19:30

Вибір ознак. Зменшення розмірності даних
- навчитеся зменшувати розмірність набору даних із великою кількістю ознак
- навчитеся обирати фічі так, щоб залишити лише найбільш значущі для моделі
- дізнаєтесь, як працюють і чим відрізняються методи зменшення розмірності SVD, PCA та LDA
16 заняття
24.03.2025 19:30

Статистичний аналіз даних
- ознайомитеся з бібліотекою SciPy
- навчитеся генерувати випадкові величини різних імовірнісних розподілів, проводити тести нормальності та порівнювати розподіли двох випадкових величин
- вивчите основи перевірки статистичних гіпотез: помилки I та II роду, p-value
- дізнаєтесь, як проводити А/В-тестування та перевіряти гіпотези
17 заняття

27.03.2025 19:30

Співбесіди й вимоги до них. Розповсюджені помилки у домашніх завданнях

реєстрація

Після заповнення форми з вами зв’яжеться наш менеджер, щоб уточнити всі деталі та відповісти на запитання.