DATA SCIENTIST
Навчіться ефективно працювати з Big Data: від пошуку інсайтів у цифрах до побудови нейромереж та прогнозних моделей на Python.
Дмитро Безущак
Data Scientist / ML Engineer
5+ років досвіду
про курс
- Тривалість:
35 онлайн-занять
- Курсовий проєкт:
створення прогнозної моделі
- Бонус:
прокачка софт-скілів
Почнемо навчання з основ — чітко визначимо зони відповідальності дата-саєнтиста. Далі опануємо всі інструменти для аналізу даних і прогнозування: від Excel-таблиць і SQL-запитів до бібліотек TensorFlow, PyTorch, Keras для побудови нейромереж.
У результаті ви навчитеся працювати з даними на рівні дата-саєнтиста, матимете портфоліо з проєктами та підготуєтеся до інтерв’ю на позицію Junior Data Scientist.
курс підійде
-
Аналітикам даних
щоб навчитися працювати з великими даними, писати код на Python і працювати з його бібліотеками для створення прогнозних моделей.
-
Розробникам, тестувальникам, CRM-менеджерам
щоб застосовувати вже наявні знання у новому напрямі, знаходити взаємозв’язки й інсайти в даних, будувати нейромережі та свічнутися в Data Science.
-
Початківцям і студентам технічних напрямів
щоб навчитися працювати з масивами даних, опанувати скілсет дата-саєнтиста й розпочати кар’єру в перспективному напрямі.
до програми курсу входять
лектор
Дмитро Безущак
Data Scientist / ML Engineer у провідній IT-компанії зі списку S&P 500
-
понад 5 років працює в Data Science
-
має успішні релізи NLP- та CV-продуктів
-
разом із командою запустив стартап із розпізнавання логотипів
-
багаторазовий призер хакатонів та змагань Kaggle
-
має ступінь Master of Arts Київської школи економіки та Університету Г’юстона
ЗАПРОШЕНИЙ ЛЕКТОР
Владислав Яковенко
-
Engineering Manager та керівник напряму Growth Modelling and Automation у Bolt
-
має 9 років досвіду в Data Science
-
розробляв алгоритми динамічного ціноутворення, оптимізації кампаній, користувацького досвіду в Bolt
-
на базі машинного навчання розробляв системи Next Best Offer та Anti-Money laundering для провідних європейських банків
-
розробляв детектор аномалій у системі, що обробляє понад 7 млрд подій щоденно
Програма
-
01 модульзаняття 1–2 3 години
Вступ до професії Data Scientist і воркфлоу роботи на курсі
Теми:
- Що таке дані та для чого їх збирати
- Чим відрізняються професії Data Analyst, BI Analyst, Data Engineer, Software Engineer, Data Scientist i Machine Learning Engineer
- Стек навичок Data Scientist
Результати:
- Дізнаєтеся, що таке дані та які можливості є в бізнесу, якщо він правильно збирає та обробляє свої дані.
- Зрозумієте відмінності між професіями Data Scientist, Data Analyst, BI Analyst і Data Engineer. Розберете зони відповідальності кожної.
- Дізнаєтеся про види й типи даних.
- Розберете ключові завдання Data Scientist у компанії.
- Розберете стек навичок Data Scientist, виокремите власні сильні та слабкі сторони для цієї професії.
-
02 модульзаняття 3–10 12 годин
Інструменти Data Scientist
Теми:
- Python та Jupyter Notebook
- Принципи ООП та їхнє застосування в програмуванні на Python
- Базові концепти Python
- Функціональне програмування
- Особливості програмування на Python
- Основні бібліотеки та фреймворки Python
- Бібліотеки Python для Data Science
Результати:
- Знайомі з концептом і принципами програмування на Python.
- Знаєте базовий синтаксис Python.
- Вмієте користуватися Jupyter Notebook.
- Знайомі з принципами ООП та застосовуєте їх на практиці.
- Розумієте відмінність між обʼєктно-орієнтованим і функціональним програмуванням.
- Вмієте використовувати код на Python для пошуку та обробки даних.
- Розумієте, для чого потрібні бібліотеки Python, та знайомі з основними з них.
- Знаєте, які бібліотеки Python використовують у Data Science, та вмієте працювати з ними.
-
03 модульзаняття 11–17 9 годин
Базова математика для Data Science
Теми:
- Основні концепти лінійної алгебри
- Поняття вектора та операції з векторами
- Поняття матриці та операції над матрицями
- Векторний, нормативний та математичний простір
- Події та ймовірність
- Розподіл імовірностей
- Дисперсія
- Види розподілів
Результати:
- Актуалізували знання з лінійної алгебри та статистики.
- Знайомі з поняттям просторів у математиці та розумієте, для чого вони потрібні.
- Знайомі з концептами теорії ймовірностей.
- Знаєте формули розрахунку ймовірностей та вмієте ними користуватися.
- Розумієте, що таке розподіл, дисперсія, кореляція, коваріація.
- Вмієте описувати задачі математичною мовою.
- Застосовуєте математичні формули для розв’язання задач Data Science.
-
04 модульзаняття 18–20 4.5 години
Бази даних для Data Science
Теми:
- Що таке дані та як їх зберігати
- SQL для роботи з даними
Результати:
- Розумієте, що таке дані та як правильно їх зберігати.
- Розбираєтесь у видах баз даних.
- Розумієте відмінність між DB та DBMS.
- Вмієте писати SQL-запити та користуватися операторами INSERT, DELETE, SELECT, WHERE та JOIN.
- Знаєте, як «витягнути» потрібні дані з бази.
-
05 модульзаняття 21–28 12 годин
Методи машинного навчання
Теми:
- Регресія
- Задачі класифікації
- Метод опорних векторів
- Дерева ухвалення рішень
- Задачі кластеризації
- Методи прогнозування
- Методи оцінки якості прогнозів
- Поняття нейронних мереж
- Бібліотеки та фреймворки для роботи з нейромережами
- Метрики оцінки якості моделей Machine Learning
Результати:
- Вмієте будувати лінійну та поліноміальну регресію.
- Вмієте розв’язувати задачі класифікації та кластеризації.
- Знаєте, як провести базовий Time Series Analysis.
- Вмієте будувати прогнози на основі отриманих даних.
- Вмієте працювати з пакетами PyTorch, TensorFlow, Keras для побудови моделей Machine Learning.
- Знайомі з метриками оцінки якості моделей.
- Розумієте, який алгоритм працює «під капотом» нейромереж.
- Побудували першу нейронну мережу вручну.
- Вмієте користуватися нейромережами для прогнозування.
-
06 модульзаняття 29–31 4.5 години
Аналіз даних і прогнозування
Теми:
- Зчитування та обробка даних перед побудовою моделі
- EDA, Feature Engineering, Feature Importance
Результати:
- Зчитуєте дані із CSV, JSON, XLSX, SQLite.
- Знаєте, як працювати з Missing Data.
- Будуєте зрозумілі візуалізації для даних.
- Вмієте знаходити закономірності в даних.
- Розумієте, чому так важливо правильно зібрати й обробити дані перед побудовою моделей прогнозування і чому не можна просто взяти всі дані та закинути в модель.
- Знайомі з поняттям Feature та знаєте, що це таке в кожній моделі.
- Розумієте, навіщо використовувати Feature Importance.
-
07 модульзаняття 32–33 3 години
Обробка Big Data й розвиток майндсету дата-саєнтиста
Теми:
- Обробка великих даних: парадигми, паралельне обчислення, розподілені системи
- Компоненти Spark: Core, SQL, MlLib, Streaming, GraphX
- Основи Spark: RDD, transformations та actions, lazy evaluations
- Популярні API для роботи зі Spark
- Базові операції в Databricks Notebook, синтаксис PySpark, візуалізація даних
- Що таке майндсет дата-саєнтиста
- Формулювання гіпотез та методи їх перевірки
- Розуміння потреб бізнесу, поєднання вимог і математичних побажань
- Вибір підходу та моделі, оцінка моделей
- Поділ задачі від ПЗ на таски, планування
- Презентація результатів та кінцевого рішення
- Побудова власного профілю Data Scientist
Результати:
- Розумієте, що таке великі дані та знаєте принципи їх обробки.
- Знаєте основи технології Spark і типові ситуації для її застосування.
- Розумієтеся на базовому синтаксисі PySpark для операцій у Spark.
- Працюєте з даними в Databricks Notebooks.
- Застосовуєте майндсет дата-саєнтиста на практиці.
-
08 модульзаняття 34–35 3 години
Презентація фінального проєкту
Результати:
- Отримаєте Tabular Data і застосуєте всі скіли, опановані протягом курсу, на практиці.
- Опрацюєте дані, побудуєте візуалізації, зберете пайплайн, побудуєте й натренуєте модель для прогнозування.
- Презентуєте свою модель колегам.
реєстрація
Заповнюйте форму та долучайтеся до курсу, щоб зростати в Data Science.