Продолжительность:
4 месяца
35 онлайн-занятий
каждый понедельник и среду
Комплексный курс про магию данных. За 3 месяца вы овладеете полным стеком инструментов и скилов дата-саентиста, а также создавать и тренировать нейросети, чтобы помогать бизнесу, промышленности, науке и медицине разрабатывать и улучшать продукты.
Курс подойдет
-
Начинающим и студентам технических направлений чтобы начать карьеру в IT с перспективного неперегретого направления, овладеть полным стеком инструментов дата-саентиста, научиться работать с массивами данных, строить модели прогнозирования и нейросети под нужды бизнеса.
-
Аналитикам данных чтобы автоматизировать рутинную работу, научиться работать с Big Data без хаоса, формулировать бизнес-задачи по математическим закономерностям, писать код на Python и пользоваться его фреймворками для задач Data Science.
-
Разработчикам, тестировщикам, CRM-менеджерам чтобы научиться собирать, обрабатывать, структурировать и читать данные, находить в них взаимосвязи и инсайты для бизнеса; чтобы адаптировать собственные знания под новое направление, строить собственные прогнозные модели и свичнуться в Data Science.
-
Ритейл, финансы, образование, медицина, хайтек — опытный дата-саентист сегодня нужен в любой индустрии. Он может обрабатывать обширные данные и строить модели, позволяющие прогнозировать события и искать неочевидные закономерности, чтобы помочь бизнесу принимать решения.
-
На этом курсе мы начнем с основ и четко определим зоны ответственности дата-саентиста. Далее шаг за шагом овладеем всеми инструментами для анализа данных и прогнозирования: от Excel-таблиц и SQL-запросов до библиотек TensorFlow, PyTorch, Keras для построения нейросетей. В результате ― вы научитесь работать с данными на уровне дата-саентиста и помогать бизнесу создавать и совершенствовать продукты.
В программу курса входят:
-
ТЕОРИЯ • с нуля пройдете весь путь профессии и разберете ключевые обязанности
• разовьете Data Scientist Mindset
• изучите необходимые математические понятия и формулы -
ИНСТРУМЕНТЫ • будете писать SQL-запросы в базу данных
• научитесь кодить на Python и пользоваться библиотеками NumPy, Pandas, Matplotlib, PyTorch, scikit-learn, Keras, SciPy, XGBoost, Math, Bokeh, Plotly, Seaborn и т. д.
• сможете деплоить собственные модели с помощью Docker -
ПРАКТИКА • научитесь правильно читать метрики и работать с массивами данных
• будете решать задачи классификации и кластеризации и проводить Time Series Analysis
• будете строить модели прогнозирования и нейросети -
ПРИГЛАШЕННЫЙ ЭКСПЕРТ • Владислав Яковенко, Engineering Manager в Bolt с 9-летним опытом в Data Science
• поможет овладеть инструментами обработки Big Data и сформировать майндсет дата-саентиста -
КАРЬЕРА • научитесь понимать потребности бизнеса и строить модели, помогающие ему принимать решения
• овладеете всем скилсетом дата-саентиста
• будете готовы пройти собеседование на позицию Junior Data Scientist и сразу решать задачи
ЛЕКТОР:
Дмитрий
Безущак
- более 5 лет работает в Data Science
- последние 2 года занимает должность Data Scientist / ML Engineer в ведущей IT-компании из списка S&P 500
- имеет успешные релизы NLP- и CV-продуктов.
- вместе с командой запустил стартап по распознаванию логотипов
- многократный призер хакатонов и соревнований Kaggle
- имеет степень Master of Arts Киевской школы экономики и Университета Хьюстона
Программа
-
01
01 модуль / занятия 1–2 / 3 часа
Введение в профессию Data Scientist и воркфлоу работы на курсе
Темы:
- Что такое данные и зачем их собирать
- Чем отличаются профессии Data Analyst, BI Analyst, Data Engineer, Software Engineer, Data Scientist и Machine Learning Engineer
- Стек навыков Data Scientist
Результаты:
- Узнаете, что такое данные и какие возможности есть у бизнеса, если он правильно собирает и обрабатывает свои данные.
- Поймете разницу между профессиями Data Scientist, Data Analyst, BI Analyst и Data Engineer. Разберете зоны ответственности каждой.
- Узнаете о видах и типах данных.
- Разберете ключевые задачи Data Scientist в компании.
- Разберете стек навыков Data Scientist, выделите собственные сильные и слабые стороны этой профессии.
-
02
02 модуль / занятия 3–10 / 12 часов
Инструменты Data Scientist
Темы:
- Python и Jupyter Notebook
- Принципы ООП и их применение в программировании на Python
- Базовые концепты Python
- Функциональное программирование
- Особенности программирования на Python
- Основные библиотеки и фреймворки Python
- Библиотеки Python для Data Science
Результаты:
- Знакомы с концептом и принципами программирования на Python.
- Знаете базовый синтаксис Python.
- Умеете пользоваться Jupyter Notebook.
- Знакомы с принципами ООП и применяете их на практике.
- Понимаете разницу между объектно-ориентированным и функциональным программированием.
- Умеете использовать код на Python для поиска и обработки данных.
- Понимаете, для чего нужны библиотеки Python, и знакомы с основными из них.
- Знаете, какие библиотеки Python используются в Data Science, и умеете работать с ними.
-
03
03 модуль / занятия 11–17 / 9 часов
Базовая математика для Data Science
Темы:
- Основные концепты линейной алгебры
- Понятие вектора и операции с векторами
- Понятие матрицы и операции над матрицами
- Векторное, нормативное и математическое пространство
- События и вероятность
- Распределение вероятностей
- Дисперсия
- Виды распределений
Результаты:
- Актуализировали забытые знания по линейной алгебре и статистике.
- Знакомы с понятием пространств по математике и понимаете, для чего они нужны.
- Знакомы с концептами теории вероятностей.
- Знаете формулы расчета вероятностей и умеете ими пользоваться.
- Понимаете, что такое деление, дисперсия, корреляция, ковариация.
- Умеете описывать задачи на математическом языке.
- Используете математические формулы для решения задач Data Science.
-
04
04 модуль / занятия 18–20 / 4.5 часа
Базы данных для Data Science
Темы:
- Что такое данные и как их хранить
- SQL для работы с данными
Результаты:
- Понимаете, что такое данные и как правильно хранить их.
- Разбираетесь в видах баз данных.
- Понимаете разницу между DB и DBMS.
- Умеете писать SQL-запросы и использовать операторы INSERT, DELETE, SELECT, WHERE и JOIN.
- Знаете, как «вытащить» нужные данные из базы.
-
05
05 модуль / занятия 21–28 / 12 часов
Методы машинного обучения
Темы:
- Регрессия
- Задачи классификации
- Метод опорных векторов
- Деревья принятия решений
- Задачи кластеризации
- Методы прогнозирования
- Методы оценки качества прогнозов
- Понятие нейронных сетей
- Библиотеки и фреймворки для работы с нейросетями
- Метрики оценки качества моделей Machine Learning
Результаты:
- Умеете строить линейную и полиномиальную регрессию.
- Умеете решать задачи классификации и кластеризации.
- Знаете, как провести базовый Time Series Analysis.
- Умеете строить прогнозы на основе полученных данных.
- Умеете работать с пакетами PyTorch, TensorFlow и Keras для построения моделей Machine Learning.
- Знакомы с метриками оценки качества моделей.
- Понимаете, какой алгоритм работает «под капотом» нейросетей.
- Построили первую нейронную сеть вручную.
- Умеете пользоваться нейросетями для прогнозирования.
-
06
06 модуль / занятия 29–31 / 4.5 часа
Анализ данных и прогнозирование
Темы:
- Считывание и обработка данных перед построением модели
- EDA, Feature Engineering, Feature Importance
Результаты:
- Считываете данные из CSV, JSON, XLSX, SQLite.
- Знаете, как работать с Missing Data.
- Строите ясные визуализации для данных.
- Умеете находить закономерности в данных.
- Понимаете, почему так важно правильно собрать и обработать данные перед построением моделей прогнозирования и почему нельзя просто взять все данные и забросить в модель.
- Знакомы с понятием Feature и знаете, что это в каждой модели.
- Понимаете, зачем использовать Feature Importance.
-
07
07 модуль / занятия 32–33 / 3 часа
Обработка Big Data и развитие майндсета дата-саентиста
Темы:
- Обработка Big Data: парадигмы, параллельное вычисление, распределенные системы
- Компоненты Spark: Core, SQL, MlLib, Streaming, GraphX
- Основы Spark: RDD, transformations и actions, lazy evaluations
- Популярные API для работы со Spark
- Базовые операции в Databricks Notebook, синтаксис PySpark, визуализация данных
- Что такое майндсет дата-саентиста
- Формулировка гипотез и методы их проверки
- Понимание потребностей бизнеса, сочетание требований и математических пожеланий
- Выбор подхода и модели, оценка моделей
- Разделение задачи от ПО на таски, планирование
- Презентация результатов и окончательного решения
- Построение профиля Data Scientist
Результаты:
- Понимаете, что такое Big Data и знаете принципы их обработки.
- Знаете основы Spark и типичные ситуации для ее применения.
- Обладаете базовым синтаксисом PySpark для операций в Spark.
- Работаете с данными в Databricks Notebooks.
- Применяете майндсет дата-саентиста на практике.
-
08
08 модуль / занятия 36–37 / 3 часа
Презентация финального проекта
Результаты:
- Получите Tabular Data и примените все скилы, освоенные в течение курса, на практике.
- Обработаете данные, построите визуализацию, соберете пайплайн, построите и натренируете модель для прогнозирования.
- Представите свою модель коллегам.
Регистрация