r_d

Python for data science

Практический онлайн-курс о том, как работать с данными в Python. Рекомендован для глубокой аналитики данных, а также как база для дальнейшей работы с задачами класса ‘machine learning’.
О курсе

По вашему запросу уточнены виды навыков, которые человек получит в течение 15 занятий: ‘обработка массивов данных с помощью библиотек NumPy и Pandas’, ‘построение регрессий’, ‘визуализация данных’.

По предварительным оценкам, после обучения человек сможет обрабатывать задачи класса ‘проверка и генерация гипотез’, ‘классификация’, ‘прогнозирование’.

15 марта  3 мая
15 марта — 3 мая
записаться
лектор
Дима Палийчук

занимается data science в Snap Inc (мессенджер Snapchat, смарт-очки Spectacles, сервисы Bitmoji и Zenly). Ранее:

  • Head of Analysis в Genesis
  • системный аналитик в Luxoft
  • oracle-разработчик в Miratech
программа
1
занятие 15.03
Начало работы с Python
Установите Python, ознакомьтесь с Jupyter. Начните изучать библиотеки, основные типы данных, арифметические операции и базовые конструкции.Также изучите вспомогательные конструкции, циклы, функции и классы. Зачем: начать работу с основными функциями и модулями.
2
занятие 19.03
Начало работы с библиотеками NumPy и Pandas
Изучите встроенные функции библиотек и основные структуры данных (Series, DataFrame). Создайте массивы данных и освойте применение математических и статистических методов. Зачем: проводить научные расчеты с помощью Python.
3
занятие 22.03
Продолжение работы с библиотеками NumPy и Pandas
Освойте функции (Indexing, Selection, Filtering), а также импорт данных из CSV, Excel, SQL. Зачем: готовить данные к анализу.
4
занятие 26.03
Продолжение работы с библиотеками NumPy и Pandas, часть 2
Освойте иерархическую индексацию и группировки данных. Попробуйте самостоятельно создать сводную таблицу и произвести операции над данными. Зачем: сортировать и агрегировать данные, объединять и конкатенировать объекты таблицы.
5
занятие 29.03
Визуализация данных с помощю Matplotlib, Seaborn
Изучите основные элементы графика. Постройте несколько разных видов графиков. Поработайте с функцией subplot() для создания нескольких независимых графиков. Зачем: выражать данные в визуально понятном виде.
6
занятие 02.04
Описательная статистика в Pandas
Проведите предварительный анализ данных. Научитесь считать квантили и квартили, создавать гистограммы и ящики с усами. Зачем: описывать и интерпретировать данные, а также отличать правду от лжи.
7
занятие 05.04
Проверка статистических гипотез, часть 1
Начните оперировать основными понятиями при проверке гипотез. Изучите формы распределения данных в выборке. Оцените статистическую значимость значений в выборке.
8
занятие 09.04
Проверка статистических гипотез, часть 2
Изучите типы ошибок (I и II рода, p-value). Научитесь проводить A/B-тестирование. Зачем: оценивать истинность гипотез.
9
занятие 12.04
Кластеризация данных, часть 1
Изучите сферы применения, основные задачи. Проведите иерархический кластерный анализ. Зачем: научиться разбивать данные на относительно однородные группы.
10
занятие 19.04
Кластеризация данных, часть 2
Изучите метод к-средних (K-mean). Научитесь интерпретировать результаты кластеризации. Зачем: получать результат даже когда данных мало и не выполняются требования классических методов статистического анализа.
11
занятие 23.04
Прогнозирование на основе линейной и полиномиальной регрессий
Изучите основные принципы построения регрессии и сферы применения. Научитесь оценивать качество линейной и полиномиальной регрессий. Зачем: применять регрессии для прогнозирования.
12
занятие 26.04
Логистическая регрессия
Научитесь строить и оценивать логистические регрессии. Зачем: применять регрессию для задач с ограничениями в показателях либо с бинарным откликом.
13
занятие 30.04
Факторный анализ
Изучите основные принципы и сферы применения. Проведите анализ с помощью метода главных компонентов (PCA). Зачем: формировать структуру взаимосвязей между переменными.
14
занятие 03.04
Деревья решений (Decision Tree)
Научитесь строить деревья решений и оценивать качества классификатора. Зачем: решать задачи классификации и регрессии.
15
занятие 07.05
Случайные леса (Random Forest)
Изучите общие принципы, сферы применения, приемы улучшения классификаторов (Stacking, Boosting, Bagging). Зачем: строить алгоритм машинного обучения для решения задач классификации и регрессии.
вы
ваши свойства
  • дата-аналитики
  • дата-сайентисты
  • разработчики
  • бизнес-аналитики
ваши свойства
  • знание математики и статистики, опыт работы с данными
  • минимальный опыт работы с любым языком программирования
После курса
1
Обработка данных в Python.
Работаете с библиотеками NumPy и Pandas —> можете собирать, агрегировать и готовить данные к анализу
2
Статистика.
Умеете кластеризовать данные и определять различия между ними
—> можете тестировать статистические гипотезы и находить ошибки и решения различных задач.
3
Основы data science.
Умеете работать с тремя основными алгоритмами регрессии (линейная, полиномиальная и логистическая)
—> можете строите предиктивные модели.
регистрация

это обязательное поле

введите правильный адрес

это тоже обязательное поле

введите корректный номер телефона

и это тоже обязательное поле

 
 
 
 
Регистрируясь, вы соглашаетесь с условиями
договора-оферты и политикой конфиденциальности.
what if … :
1. … курс не понравился – можно вернуть деньги.
2. … не подходит график занятий — уточните, когда будет следующий поток.
3. … вы пропустили занятие – сохраняется запись.