Python for data science

3 плюса Python для работы с data science и machine learning: простой синтаксис, много готовых библиотек, скорость выполнения команд.

15 занятий вы будете учиться обрабатывать массивы данных с помощью библиотек NumPy и Pandas, строить статистические гипотезы, визуализировать информацию и использовать алгоритмы ML в аналитике больших данных.

21 декабря ↓ 19 февраля

→21 декабря — 19 февраля

Дима Палийчук

занимается data science в Snap Inc (мессенджер Snapchat, смарт-очки Spectacles, сервисы Bitmoji и Zenly). Ранее:

Head of Analysis в Genesis
системный аналитик в Luxoft
oracle-разработчик в Miratech

занятие 21.12

Начало работы с Python

Установите Python, ознакомьтесь с Jupyter. Начните изучать библиотеки, основные типы данных, арифметические операции и базовые конструкции. Зачем: чтобы перейти к следующему занятию.

занятие 24.12

Продолжение начала работы с Python

Изучите вспомогательные конструкции, циклы, функции и классы. Зачем: начать работу с основными функциями и модулями.

занятие 28.12

Знакомство с библиотекой NumPy

Изучите массивы данных, математические и статистические методы. Зачем: проводить научные расчеты с помощью Python.

занятие 11.01

Знакомство с библиотекой Pandas, часть 1

Изучите основные структуры данных (Series, DataFrame), функции (Indexing, Selection, Filtering), импорт из CSV, Excel, SQL. Зачем: подготовить данные к анализу.

занятие 15.01

Знакомство с библиотекой Pandas, часть 2

Попробуйте самостоятельно создать сводные таблицы и агрегировать данные. Изучите функции объединения и конкатенации. Зачем: сортировать и агрегировать данные.

занятие 18.01

Визуализация данных с помощю Matplotlib, Seaborn

Изучите основные элементы графика. Постройте несколько разных видов графиков. Поработайте с функцией subplot() для создания нескольких независимых графиков. Зачем: выражать данные в визуально понятном виде.

занятие 22.01

Описательная статистика в Pandas

Проведите предварительный анализ данных. Научитесь считать квантили и квартили, создавать гистограммы и ящики с усами. Зачем: описывать и интерпретировать данные, а также отличать правду от лжи.

занятие 25.01

Проверка статистических гипотез

Изучите определение уровня значимости гипотезы, типы ошибок (I и II рода, p-value). Научитесь проводить A/B-тестирование. Зачем: оценивать истинность гипотез.

занятие 29.01

Кластеризация данных, часть 1

Изучите сферы применения, основные задачи. Проведите иерархический кластерный анализ. Зачем: научиться разбивать данные на относительно однородные группы.

занятие 01.02

Кластеризация данных, часть 2

Изучите метод к-средних (K-mean). Научитесь интерпретировать результаты кластеризации. Зачем: получать результат даже когда данных мало и не выполняются требования классических методов статистического анализа.

занятие 05.02

Прогнозирование на основе линейной и полиномиальной регрессий

Изучите основные принципы построения регрессии и сферы применения. Научитесь оценивать качество линейной и полиномиальной регрессий. Зачем: применять регрессии для прогнозирования.

занятие 08.02

Логистическая регрессия

Научитесь строить и оценивать логистические регрессии. Зачем: применять регрессию для задач с ограничениями в показателях либо с бинарным откликом.

занятие 12.02

Факторный анализ

Изучите основные принципы и сферы применения. Проведите анализ с помощью метода главных компонентов (PCA). Зачем: формировать структуру взаимосвязей между переменными.

занятие 15.02

Деревья решений (Decision Tree)

Научитесь строить деревья решений и оценивать качества классификатора. Зачем: решать задачи классификации и регрессии.

занятие 19.02

Случайные леса (Random Forest)

Изучите общие принципы, сферы применения, приемы улучшения классификаторов (Stacking, Boosting, Bagging). Зачем: строить алгоритм машинного обучения для решения задач классификации и регрессии.

⟶

дата-аналитики
дата-сайентисты
разработчики
бизнес-аналитики

Обработка данных в Python.
Работаете с библиотеками NumPy и Pandas —> можете собирать, агрегировать и готовить данные к анализу

Статистика.
Умеете кластеризовать данные и определять различия между ними
—> можете тестировать статистические гипотезы и находить ошибки и решения различных задач.

Основы data science.
Умеете работать с тремя основными алгоритмами регрессии (линейная, полиномиальная и логистическая)
—> можете строите предиктивные модели.

1. … курс не понравился – можно вернуть деньги.

2. … не подходит график занятий — уточните, когда будет следующий поток.

3. … вы пропустили занятие – сохраняется запись.

Зарегистрироваться

r_d