r_d

Математика и статистика для анализа данных

Практический онлайн-курс о том, как использовать математику и статистику для работы с данными. Если вы этого не знаете — вы не сможете работать с big data и ML. Поэтому вам стоит это изучить.
О курсе

Курс состоит из 25 часов теории и опционального кол-ва часов практики. По предварительным оценкам, лучше потратить 25 часов сейчас, чем ∞ часов после (на попытки интерпретировать данные).

За 25 часов вы научитесь проводить A/B-тестирование и интерпретировать результаты тестов, правильно визуализировать полученные выводы, строить временные ряды и сложные регрессии.

15 октября 3 декабря
15 октября — 3 декабря
лектор
Богдан Цал-Цалко

занимается data science в DataRobot.

  • работал data scientist at CloudMade
  • больше 8 лет опыта работы с данными
  • стек технологий: Hadoop, Java, Python, R (sklearn, scipy, numpy)
программа
1
Python
Изучите Python, R, Jupyter Notebook, а также библиотеки NumPy, Pandas. Поймите, как проводить базовые логические операции, прописывать выражения в Python и перестановки (полиномы). Зачем: решать комбинаторные задачи.
2
Дискретная математика
Изучите математику, стоящую за SQL. Найдите различия с NoSQL. Попробуйте объединять таблицы, виды, проблемы, примеры в Pandas. Проанализируйте пример вычислительной сложности по кол-ву операций и по памяти. Зачем: оценивать вычислительную сложность своих преобразований.
3
Теория вероятности, часть 1
Изучите то, что связано с темой: интуитивное определение вероятности, парадокс Бертрана, события, пространства. Проанализируйте примеры вероятностных распределений: конечных, дискретных, непрерывных, с тяжёлыми хвостами. Зачем: рассчитывать вероятности на основании базовых свойств вероятности.
4
Теория вероятности, часть 2
Изучите то, что связано с темой, но не раскрылось на прошлом занятии: условная вероятность, теорема Байеса, формулу полной вероятности, закон больших чисел. Зачем: научиться решать задачи на формулу Байеса и полную вероятность
5
Статистика, часть 1
Проанализируйте ключевые отличия между статистикой и теорией вероятности. Определите связь между ними. Ознакомьтесь с библиотеками для графиков. Зачем: научиться строить базовые статистики и их визуализировать.
6
Статистика, часть 2
Научитесь формировать статистические гипотезы, определять ошибки 1-го и 2-го рода, оперировать доверительными интервалами. Зачем: проверять работу гипотез на симуляциях, оценивать частоту ошибок.
7
Прогнозирование
Изучите инструменты построения прогнозов: матрица ошибок, Threshold-модель, кривые выгоды. Зачем: чтобы после научиться строить матрицы ошибок и кривые выгоды.
8
Модели и инструменты анализа данных для сферы финансов
Определите основные задачи финансовых услуг и их инструменты. Поймите, как собирать и обрабатывать данные. Зачем: анализировать кредитные портфели, справедливо оценивать их стоимость.
9
Регрессия
Изучите основные типы регрессий: линейная регрессия, лог-регрессия. Поймите, как обобщать регрессии до GLM. Зачем: научиться строить регрессии и оценивать их качество.
10
Модели и инструменты анализа данных для сферы страхования
Определите основные задачи страховых услуг и ключевые понятия: страховой случай, страхование жизни, «нежизни». Зачем: оценивать риски на основе данных.
11
Анализ временных рядов.
Изучите понятия «временные ряды», «сезонность», «ав торегрессия». Научитесь оперировать метриками для временных рядов. Зачем: построить авторегрессию для нескольких случаев и оценить её.
12
Модели и инструменты анализа данных для сферы продаж
Определите основные задачи в продажах. Научитесь обрабатывать данные в задачах с временными рядами, агрегировать данные и определять зависимости во временных данных. Зачем: сможете прогнозировать будущие продажи.
13
Выборки
Изучите А\Б-тестирование и теорию построения выборок. Научитесь оценивать параметры выборки для своих проектов. Зачем: строить подмножество наблюдений чтобы оценить генеральное множество.
14
Машинное обучение
Сформируйте базовое представление о data science. Изучите механизмы построения моделей на обучающих выборках. Научитесь оценивать алгоритмы с помощью процедур валидации, кросс-валидации, валидации во временных рядах. Зачем: впоследствии сможете использовать статистику для ML.
15
Итоги
Сдайте свой финальный проект, обсудите (или нет) проекты других студентов.
 
 
 
После курса
статистика
знаете, как считываются важные статистические величины —> работаете с большими массивами данных
интерпретация
находите закономерности в больших массивах данных, интерпретируете результаты тестирований —> минимизируете риски
оптимизация
умеете оптимизировать существующие модели данных —> алгоритмы работают быстрее и надёжнее
регистрация

это обязательное поле

введите правильный адрес

это тоже обязательное поле

введите корректный номер телефона

и это тоже обязательное поле

 
 
 
 
Регистрируясь, вы соглашаетесь с условиями
договора-оферты и политикой конфиденциальности.
what if … :
1. … курс не понравился – можно вернуть деньги.
2. … не подходит график занятий — уточните, когда будет следующий поток.
3. … вы пропустили занятие – сохраняется запись.