Data scientist — онлайн курс | robot_dreams

научитесь строить прогнозные модели

DATA SCIENTIST

Дмитрий Безущак Data Scientist / ML Engineer
5+ лет опыта

Продолжительность:

4 месяца 35 онлайн-занятий
каждый понедельник и среду

Комплексный курс про магию данных. За 3 месяца вы овладеете полным стеком инструментов и скилов дата-саентиста, а также создавать и тренировать нейросети, чтобы помогать бизнесу, промышленности, науке и медицине разрабатывать и улучшать продукты.

Курс подойдет

  • Начинающим и студентам технических направлений

    чтобы начать карьеру в IT с перспективного неперегретого направления, овладеть полным стеком инструментов дата-саентиста, научиться работать с массивами данных, строить модели прогнозирования и нейросети под нужды бизнеса.

  • Аналитикам данных

    чтобы автоматизировать рутинную работу, научиться работать с Big Data без хаоса, формулировать бизнес-задачи по математическим закономерностям, писать код на Python и пользоваться его фреймворками для задач Data Science.

  • Разработчикам, тестировщикам, CRM-менеджерам

    чтобы научиться собирать, обрабатывать, структурировать и читать данные, находить в них взаимосвязи и инсайты для бизнеса; чтобы адаптировать собственные знания под новое направление, строить собственные прогнозные модели и свичнуться в Data Science.

  • Ритейл, финансы, образование, медицина, хайтек — опытный дата-саентист сегодня нужен в любой индустрии. Он может обрабатывать обширные данные и строить модели, позволяющие прогнозировать события и искать неочевидные закономерности, чтобы помочь бизнесу принимать решения.

     

  • На этом курсе мы начнем с основ и четко определим зоны ответственности дата-саентиста. Далее шаг за шагом овладеем всеми инструментами для анализа данных и прогнозирования: от Excel-таблиц и SQL-запросов до библиотек TensorFlow, PyTorch, Keras для построения нейросетей. В результате ― вы научитесь работать с данными на уровне дата-саентиста и помогать бизнесу создавать и совершенствовать продукты.

В программу курса входят:

  1. ТЕОРИЯ

    • с нуля пройдете весь путь профессии и разберете ключевые обязанности
    • разовьете Data Scientist Mindset
    • изучите необходимые математические понятия и формулы

  2. ИНСТРУМЕНТЫ

    • будете писать SQL-запросы в базу данных
    • научитесь кодить на Python и пользоваться библиотеками NumPy, Pandas, Matplotlib, PyTorch, scikit-learn, Keras, SciPy, XGBoost, Math, Bokeh, Plotly, Seaborn и т. д.
    • сможете деплоить собственные модели с помощью Docker

  3. ПРАКТИКА

    • научитесь правильно читать метрики и работать с массивами данных
    • будете решать задачи классификации и кластеризации и проводить Time Series Analysis
    • будете строить модели прогнозирования и нейросети

  4. ПРИГЛАШЕННЫЙ ЭКСПЕРТ

    • Владислав Яковенко, Engineering Manager в Bolt с 9-летним опытом в Data Science
    • поможет овладеть инструментами обработки Big Data и сформировать майндсет дата-саентиста

  5. КАРЬЕРА

    • научитесь понимать потребности бизнеса и строить модели, помогающие ему принимать решения
    • овладеете всем скилсетом дата-саентиста
    • будете готовы пройти собеседование на позицию Junior Data Scientist и сразу решать задачи

ЛЕКТОР:

Дмитрий
Безущак

  • более 5 лет работает в Data Science
  • последние 2 года занимает должность Data Scientist / ML Engineer в ведущей IT-компании из списка S&P 500
  • имеет успешные релизы NLP- и CV-продуктов.
  • вместе с командой запустил стартап по распознаванию логотипов
  • многократный призер хакатонов и соревнований Kaggle
  • имеет степень Master of Arts Киевской школы экономики и Университета Хьюстона

Программа

  • 01

    01 модуль / занятия 1–2 / 3 часа

    Введение в профессию Data Scientist и воркфлоу работы на курсе

    Темы:

    • Что такое данные и зачем их собирать
    • Чем отличаются профессии Data Analyst, BI Analyst, Data Engineer, Software Engineer, Data Scientist и Machine Learning Engineer
    • Стек навыков Data Scientist

    Результаты:

    • Узнаете, что такое данные и какие возможности есть у бизнеса, если он правильно собирает и обрабатывает свои данные.
    • Поймете разницу между профессиями Data Scientist, Data Analyst, BI Analyst и Data Engineer. Разберете зоны ответственности каждой.
    • Узнаете о видах и типах данных.
    • Разберете ключевые задачи Data Scientist в компании.
    • Разберете стек навыков Data Scientist, выделите собственные сильные и слабые стороны этой профессии.
  • 02

    02 модуль / занятия 3–10 / 12 часов

    Инструменты Data Scientist

    Темы:

    • Python и Jupyter Notebook
    • Принципы ООП и их применение в программировании на Python
    • Базовые концепты Python
    • Функциональное программирование
    • Особенности программирования на Python
    • Основные библиотеки и фреймворки Python
    • Библиотеки Python для Data Science

    Результаты:

    • Знакомы с концептом и принципами программирования на Python.
    • Знаете базовый синтаксис Python.
    • Умеете пользоваться Jupyter Notebook.
    • Знакомы с принципами ООП и применяете их на практике.
    • Понимаете разницу между объектно-ориентированным и функциональным программированием.
    • Умеете использовать код на Python для поиска и обработки данных.
    • Понимаете, для чего нужны библиотеки Python, и знакомы с основными из них.
    • Знаете, какие библиотеки Python используются в Data Science, и умеете работать с ними.
  • 03

    03 модуль / занятия 11–17 / 9 часов

    Базовая математика для Data Science

    Темы:

    • Основные концепты линейной алгебры
    • Понятие вектора и операции с векторами
    • Понятие матрицы и операции над матрицами
    • Векторное, нормативное и математическое пространство
    • События и вероятность
    • Распределение вероятностей
    • Дисперсия
    • Виды распределений

    Результаты:

    • Актуализировали забытые знания по линейной алгебре и статистике.
    • Знакомы с понятием пространств по математике и понимаете, для чего они нужны.
    • Знакомы с концептами теории вероятностей.
    • Знаете формулы расчета вероятностей и умеете ими пользоваться.
    • Понимаете, что такое деление, дисперсия, корреляция, ковариация.
    • Умеете описывать задачи на математическом языке.
    • Используете математические формулы для решения задач Data Science.
  • 04

    04 модуль / занятия 18–20 / 4.5 часа

    Базы данных для Data Science

    Темы:

    • Что такое данные и как их хранить
    • SQL для работы с данными

    Результаты:

    • Понимаете, что такое данные и как правильно хранить их.
    • Разбираетесь в видах баз данных.
    • Понимаете разницу между DB и DBMS.
    • Умеете писать SQL-запросы и использовать операторы INSERT, DELETE, SELECT, WHERE и JOIN.
    • Знаете, как «вытащить» нужные данные из базы.
  • 05

    05 модуль / занятия 21–28 / 12 часов

    Методы машинного обучения

    Темы:

    • Регрессия
    • Задачи классификации
    • Метод опорных векторов
    • Деревья принятия решений
    • Задачи кластеризации
    • Методы прогнозирования
    • Методы оценки качества прогнозов
    • Понятие нейронных сетей
    • Библиотеки и фреймворки для работы с нейросетями
    • Метрики оценки качества моделей Machine Learning

    Результаты:

    • Умеете строить линейную и полиномиальную регрессию.
    • Умеете решать задачи классификации и кластеризации.
    • Знаете, как провести базовый Time Series Analysis.
    • Умеете строить прогнозы на основе полученных данных.
    • Умеете работать с пакетами PyTorch, TensorFlow и Keras для построения моделей Machine Learning.
    • Знакомы с метриками оценки качества моделей.
    • Понимаете, какой алгоритм работает «под капотом» нейросетей.
    • Построили первую нейронную сеть вручную.
    • Умеете пользоваться нейросетями для прогнозирования.
  • 06

    06 модуль / занятия 29–31 / 4.5 часа

    Анализ данных и прогнозирование

    Темы:

    • Считывание и обработка данных перед построением модели
    • EDA, Feature Engineering, Feature Importance

    Результаты:

    • Считываете данные из CSV, JSON, XLSX, SQLite.
    • Знаете, как работать с Missing Data.
    • Строите ясные визуализации для данных.
    • Умеете находить закономерности в данных.
    • Понимаете, почему так важно правильно собрать и обработать данные перед построением моделей прогнозирования и почему нельзя просто взять все данные и забросить в модель.
    • Знакомы с понятием Feature и знаете, что это в каждой модели.
    • Понимаете, зачем использовать Feature Importance.
  • 07

    07 модуль / занятия 32–33 / 3 часа

    Обработка Big Data и развитие майндсета дата-саентиста

    Темы:

    • Обработка Big Data: парадигмы, параллельное вычисление, распределенные системы
    • Компоненты Spark: Core, SQL, MlLib, Streaming, GraphX
    • Основы Spark: RDD, transformations и actions, lazy evaluations
    • Популярные API для работы со Spark
    • Базовые операции в Databricks Notebook, синтаксис PySpark, визуализация данных
    • Что такое майндсет дата-саентиста
    • Формулировка гипотез и методы их проверки
    • Понимание потребностей бизнеса, сочетание требований и математических пожеланий
    • Выбор подхода и модели, оценка моделей
    • Разделение задачи от ПО на таски, планирование
    • Презентация результатов и окончательного решения
    • Построение профиля Data Scientist

    Результаты:

    • Понимаете, что такое Big Data и знаете принципы их обработки.
    • Знаете основы Spark и типичные ситуации для ее применения.
    • Обладаете базовым синтаксисом PySpark для операций в Spark.
    • Работаете с данными в Databricks Notebooks.
    • Применяете майндсет дата-саентиста на практике.
  • 08

    08 модуль / занятия 36–37 / 3 часа

    Презентация финального проекта

    Результаты:

    • Получите Tabular Data и примените все скилы, освоенные в течение курса, на практике.
    • Обработаете данные, построите визуализацию, соберете пайплайн, построите и натренируете модель для прогнозирования.
    • Представите свою модель коллегам.

Регистрация

 

 
 
 
Регистрируясь, вы соглашаетесь с условиями договора-оферты и политикой конфиденциальности.