онлайн-курс
17 занять
Data Science with Python
Олександра Кардаш
Senior Software Engineer в
про курс
- Дата:
27.01.2025–27.03.2025
- Тривалість:
10 тижнів
- Наполнение:
10 бібліотек Python
За 17 занять навчитеся використовувати Python та його бібліотеки для розв’язання завдань Data Science — бази, на якій сформувалася велика кількість сучасних технологій: від Computer Vision до генеративного ШІ та Machine Learning.
На курсі ви:
-
почнете навчання з огляду задач Data Science
-
опануєте 10 ключових бібліотек Python для роботи з даними та їхньої візуалізації: NumPy, Pandas, Matplotlib, Seaborn та інші
-
навчитеся розв’язувати такі завдання, як-от очищення даних і пошук відсутніх значень, прогнозування й класифікація, кластерний аналіз даних та пошук взаємозв’язків
-
зможете запускати A/B-тестування та валідацію гіпотез, відбирати ознаки та будувати моделі Machine Learning
-
в результаті зможете проводити розвідувальний аналіз даних, будувати дерева рішень та ансамблі для завдань класифікації та прогнозування
КУРС ПІДІЙДЕ ВСІМ, ХТО ЗНАЄ БАЗУ PYTHON ТА ХОЧЕ:
-
проводити маніпуляції над даними за допомогою простого коду
-
пропонувати бізнес-рішення на основі глибокого аналізу, які точно спрацюють
-
робити Exploratory Data Analysis прогнози та будувати прості ML-моделі
-
навчитися знаходити інсайти у графіках та діаграмах
-
формулювати й валідувати статистичні гіпотези на основі аналізу
лекторка
Олександра Кардаш
Senior Software Engineer в Google
-
former Director of Data Science у Shelf ― американському стартапі у сфері Knowledge Management
-
була однією із перших Data Scientists у Shelf.io і брала участь у розбудові DS-команди до понад 15 спеціалістів
-
має 5 років досвіду в Data Science у різних технічних галузях, працювала зі стартапами від ідеї до готового продукту
Програма
-
01 заняття27.01.2025 19:30
Задачі Data Science. Interactive Python і знайомство з NumPy
- дізнаєтеся, чим машинне навчання відрізняється від класичного програмування, та ознайомитеся з видами задач машинного навчання
- опануєте інструменти для інтерактивної роботи з Python [IPython, Jupyter Notebook та Google Colaboratory]
- ознайомитеся з бібліотекою NumPy
- навчитеся працювати з типом даних Array: ініціалізація, характеристики, копіювання, типи даних, reshape, фільтрація, сортування
- вивчите базові математичні функції Array
- навчитеся створювати масиви та виконувати базові операції над ними в бібліотеці NumPy
-
02 заняття30.01.2025 19:30
NumPy. Лінійна алгебра і статистика
- отримаєте короткий вступ до лінійної алгебри та розберете на прикладах, як ці математичні функції працюють у бібліотеці NumPy
- навчитеся використовувати математичні та статистичні функції в NumPy
- зможете вводити й виводити NumPy-матриці та масиви різної величини
-
03 заняття06.02.2025 19:30
Знайомство з Pandas
- дізнаєтеся, навіщо потрібна бібліотека Pandas і що вона дає змогу робити з даними
- ознайомитеся зі структурами даних у Pandas (Series та Dataframe) і навчитеся проводити базові операції над ними
- навчитеся створювати, імпортувати й експортувати табличні дані в Pandas Dataframe
- навчитеся маніпулювати табличними даними
- дізнаєтесь, як швидко та зручно працювати з табличними даними за допомогою Pandas
-
04 заняття10.02.2025 19:30
Візуалізація даних
- ознайомитеся з бібліотекою Matplotlib
- навчитеся будувати базові візуалізації в Python за допомогою Matplotlib
- дізнаєтеся про три способи візуалізувати дані в Pandas Data Frame
- навчитеся будувати просунуті візуалізації: heatmap, box plot, pair plot, cumulative plot навчитеся будувати базові інтерактивні візуалізації
-
05 заняття13.02.2025 19:30
Exploratory Data Analysis (EDA) та очищення даних
- дізнаєтеся, що таке Exploratory Data Analysis (EDA) та його основні компоненти
- навчитеся швидко розуміти структуру набору даних будь-якого розміру
- дізнаєтеся, що робити з пропущеними даними та дублікатами
- навчитеся проводити EDA за допомогою Pandas, SweetViz, Pandas Profiling
-
06 заняття17.02.2025 19:30
Пошук та видалення пропущених значень
- дізнаєтеся, що таке пропущені значення та чому їх треба опрацьовувати
- ознайомитеся з типами пропущених значень (випадкові, наслідки системної помилки тощо)
- навчитеся виявляти пропущені значення у вибірці даних
- розглянете різні способи заповнення пропущених значень і навчитеся
-
07 заняття20.02.2025 19:30
Задача прогнозування. Лінійна регресія. Градієнтний спуск
- розберете модель простої лінійної регресії та її математичну основу
- ознайомитеся з методом найменших квадратів і методом градієнтного спуску
- навчитеся тренувати модель лінійної регресії за допомогою бібліотеки scikit-learn
- дізнаєтесь, як оцінювати якість моделі лінійної регресії, та навчитеся працювати з метриками MSE і RMSE
-
08 заняття24.02.2025 19:30
Інші типи регресій
- розберете модель багатовимірної лінійної регресії та навчитеся будувати її за допомогою scikit-learn
- навчитеся інтерпретувати коефіцієнти лінійної регресії
- розберете модель поліноміальної регресії
- дізнаєтесь, як оцінювати якість моделі за допомогою метрик MAE, MAPE, R-squared
- розберете моделі гребінцевої регресії, регресії за методом LASSO та регресії «еластична мережа»
-
09 заняття27.02.2025 19:30
Вибір найкращої моделі. Техніки валідації. Пошук гіперпараметрів
- дізнаєтеся, навіщо розбивати вибірку на train/validation/test-вибірки
- зрозумієте, в чому відмінність validation- і test-вибірок
- дізнаєтеся, що таке гіперпараметри моделі та в чому їхня відмінність від параметрів
- ознайомитеся з методами підбору гіперпараметрів і навчитеся викликати їх у scikit-learn
- дізнаєтеся, що таке перехресна валідація та як використовувати її в sklearn
- зрозумієте, що таке overfit i underfit (і чому це проблема)
- навчитеся застосовувати регуляризацію в моделях регресії
-
10 заняття03.03.2025 19:30
Задача класифікації. Логістична регресія
- дізнаєтесь, як навчати модель логістичної регресії для класифікації даних та оцінювати її якість
- отримаєте алгоритм дій у випадку мультикласової класифікації та зрозумієте, як оцінити якість таких моделей
-
11 заняття06.03.2025 19:30
Модель «дерева рішень»
- ознайомитеся з моделлю «дерева рішень» і дізнаєтеся, в чому її відмінність від лінійних моделей
- навчитеся будувати модель «дерева рішень» у scikit-learn
-
12 заняття10.03.2025 19:30
Ансамблі моделей
- зрозумієте, як працюють ансамблі моделей і в чому їхні переваги
- розберете базові (Max Voting, Averaging, Weighted Averaging) та просунуті (Stacking, Bagging, Boosting) техніки побудови ансамблів
- навчитеся будувати різні типи ансамблів моделей
- дізнаєтеся, який спосіб ансамблювання потрібно використати у випадку high bias, а який — у випадку high variance
-
13 заняття13.03.2025 19:30
Алгоритми бустингу: адаптивний та градієнтний бустинг. Бібліотеки XGBoost
- вивчите принципи роботи адаптивного і градієнтного бустингів
- ознайомитеся з функціями бібліотеки XGBoost, розберете її особливості та переваги
-
14 заняття17.03.2025 19:30
Кластерний аналіз даних
- розглянете модель кластеризації як приклад задачі навчання без учителя
- розберете моделі кластеризації K-Means, DBSCAN, Agglomerative Clustering, а також їхні особливості побудови та принципи роботи на практиці
- навчитеся виявляти групи схожих екземплярів даних за допомогою кластеризації
-
15 заняття20.03.2025 19:30
Вибір ознак. Зменшення розмірності даних
- навчитеся зменшувати розмірність набору даних із великою кількістю ознак
- навчитеся обирати фічі так, щоб залишити лише найбільш значущі для моделі
- дізнаєтесь, як працюють і чим відрізняються методи зменшення розмірності SVD, PCA та LDA
-
16 заняття24.03.2025 19:30
Статистичний аналіз даних
- ознайомитеся з бібліотекою SciPy
- навчитеся генерувати випадкові величини різних імовірнісних розподілів, проводити тести нормальності та порівнювати розподіли двох випадкових величин
- вивчите основи перевірки статистичних гіпотез: помилки I та II роду, p-value
- дізнаєтесь, як проводити А/В-тестування та перевіряти гіпотези
-
17 заняття27.03.2025 19:30
Співбесіди й вимоги до них. Розповсюджені помилки у домашніх завданнях
реєстрація
Після заповнення форми з вами зв’яжеться наш менеджер, щоб уточнити всі деталі та відповісти на запитання.