DATA SCIENTIST
Дмитрий Безущак
Data Scientist в EPAM

25 онлайн-занятий
[по понедельникам и четвергам]
Комплексный курс про магию данных. За 3 месяца вы освоите полный стек инструментов и скилов дата-сайентиста, а также научитесь строить модели прогнозирования, чтобы помогать бизнесу, промышленности, науке и медицине создавать и улучшать продукты.
* курс преподается на украинском языке
чтобы автоматизировать рутину, научиться работать с Big Data без хаоса, формулировать бизнес-задачи с помощью математических закономерностей, писать код на Python и пользоваться его фреймворками для задач Data Science.
тестировщикам,
crm-менеджерам
чтобы научиться собирать, обрабатывать, структурировать и читать данные, находить в них взаимосвязи и инсайты для бизнеса; чтобы адаптировать собственные знания под новое направление, строить прогнозные модели и перейти в Data Science.
и студентам
технических направлений
чтобы начать карьеру в ІТ с перспективного неперегретого направления, овладеть полным стеком инструментов дата-сайентиста, научиться работать с массивами данных, строить модели прогнозирования и нейросети под нужды бизнеса.

Ритейл, финансы, образование, медицина, хайтек ― опытный дата-сайентист сегодня нужен в любой индустрии. Он может обрабатывать большие данные и строить модели, позволяющие прогнозировать события и искать неочевидные закономерности, чтобы помочь бизнесу принимать решения.
На этом курсе мы начнем с основ и четко определим зоны ответственности дата-сайентиста. Далее шаг за шагом освоим все инструменты для анализа данных и прогнозирования: от Excel-таблиц и SQL-запросов до библиотек TensorFlow, PyTorch, Keras для построения нейросетей. В результате ― вы научитесь работать с данными на уровне дата-сайентиста и будете помогать бизнесу создавать и совершенствовать продукты.
- с нуля пройдете весь путь профессии и разберете ключевые обязанности
- разовьете Data Scientist Mindset
- изучите необходимые математические понятия и формулы
- будете писать SQL-запросы в базу данных
- научитесь кодить на Python и пользоваться библиотеками NumPy, Pandas, Matplotlib, PyTorch, scikit-learn, Keras, SciPy, XGBoost, Math, Bokeh, Plotly, Seaborn и т. д.
- сможете деплоить собственные модели с помощью Docker
- научитесь правильно читать метрики и работать с массивами данных
- будете решать задачи классификации и кластеризации, а также проводить Time Series Analysis
- будете строить модели прогнозирования и нейросети
- научитесь понимать потребности бизнеса и строить модели, которые помогут ему принимать решения
- овладеете всем скилсетом дата-сайентиста
- будете готовы пройти собеседование на позицию Junior Data Scientist и сразу реализовывать задачи

Темы:
- Что такое данные и зачем их собирать
- Чем отличаются профессии Data Analyst, BI Analyst, Data Engineer, Software Engineer, Data Scientist и Machine Learning Engineer
- Стек навыков Data Scientist
Результаты:
- Узнаете, что такое данные и какие возможности есть у бизнеса, если он правильно собирает и обрабатывает свои данные.
- Поймете разницу между профессиями Data Scientist, Data Analyst, BI Analyst и Data Engineer. Разберете зоны ответственности каждой.
- Узнаете виды и типы данных.
- Разберете ключевые задачи Data Scientist в компании.
- Разберете стек навыков Data Scientist, выделите собственные сильные и слабые стороны этой профессии.
Темы:
- Python и Jupyter Notebook
- Принципы ООП и их применение в программировании на Python
- Базовые концепты Python
- Функциональное программирование
- Особенности программирования на Python
- Основные библиотеки и фреймворки Python
- Библиотеки Python для Data Science
Результаты:
- Знакомы с концептом и принципами программирования на Python.
- Знаете базовый синтаксис Python.
- Умеете пользоваться Jupyter Notebook.
- Знакомы с принципами ООП и применяете их на практике.
- Понимаете разницу между объектно-ориентированным и функциональным программированием.
- Умеете использовать код на Python для поиска и обработки данных.
- Понимаете, зачем нужны библиотеки Python, и знакомы с основными из них.
- Знаете, какие библиотеки Python используются в Data Science, и умеете работать с ними.
Темы:
- Основные концепты линейной алгебры
- Понятие вектора и операции с векторами
- Понятие матрицы и операции над матрицами
- Векторное, нормативное и математическое пространство
- События и вероятность
- Распределение вероятностей
- Дисперсия
- Виды распределений
Результаты:
- Актуализировали забытые знания по линейной алгебре и статистике.
- Знакомы с понятием пространств в математике и понимаете, для чего они нужны.
- Знакомы с концептами теории вероятностей.
- Знаете формулы расчета вероятностей и умеете ими пользоваться.
- Понимаете, что такое деление, дисперсия, корреляция, ковариация.
- Умеете описывать задачи на математическом языке.
- Используете математические формулы для решения задач Data Science.
Темы:
- Что такое данные и как их хранить
- SQL для работы с данными
Результаты:
- Понимаете, что такое данные и как правильно хранить их.
- Разбираетесь в видах баз данных.
- Понимаете разницу между DB и DBMS.
- Умеете писать SQL-запросы и использовать операторы INSERT, DELETE, SELECT, WHERE и JOIN.
- Знаете, как «вытащить» нужные данные из базы.
Темы:
- Регрессия
- Задачи классификации
- Метод опорных векторов
- Деревья принятия решений
- Задачи кластеризации
- Методы прогнозирования
- Методы оценки качества прогнозов
- Понятие нейронных сетей
- Библиотеки и фреймворки для работы с нейросетями
- Метрики оценки качества моделей Machine Learning
Результаты:
- Умеете строить линейную и полиномиальную регрессию.
- Умеете решать задачи классификации и кластеризации.
- Знаете, как провести базовый Time Series Analysis.
- Умеете строить прогнозы на основе полученных данных.
- Умеете работать с пакетами PyTorch, TensorFlow и Keras для построения моделей Machine Learning.
- Знакомы с метриками оценки качества моделей.
- Понимаете, какой алгоритм работает под капотом нейросетей.
- Построили первую нейронную сеть вручную.
- Умеете пользоваться нейросетями для прогнозирования.
Темы:
- Считывание и обработка данных
- EDA, Feature Engineering, Feature Importance
Результаты:
- Считываете данные из CSV, JSON, XLSX, SQLite.
- Знаете, как работать с Missing Data.
- Строите ясные визуализации для данных.
- Умеете находить закономерности в данных.
- Понимаете, почему так важно правильно собрать и обработать данные перед построением моделей прогнозирования и почему нельзя просто взять все данные и забросить в модель.
- Знакомы с понятием Feature и знаете, что это такое в каждой модели.
- Понимаете, зачем использовать Feature Importance.
Темы:
- Что такое майндсет дата-сайентиста
- Deploy моделей
Результаты:
- Понимаете, как строится проект Data Science с нуля.
- Знаете, как формируются предположения и гипотезы, и умеете их проверять.
- Руководствуетесь потребностями бизнеса при работе с данными и построении прогнозов.
- Умеете оценивать свои модели.
- Знаете, как презентовать результаты работы менеджменту.
- Умеете деплоить и редеплоить собственные модели в Docker.
Результаты:
- Получите Tabular Data и примените все скилы, освоенные в течение курса, на практике.
- Обработаете данные, построите визуализацию, соберете пайплайн, построите и натренируете модель для прогнозирования.
- Представите свою модель коллегам.