Библиотеки Python для анализа данных
ПРОДОЛЖИТЕЛЬНОСТЬ:
21 онлайн-занятие
каждый вторник и каждый четверг
Курс, на котором вы научитесь проводить статистический анализ данных с помощью Python и разовьете математическое мышление для решения реальных задач Data Science, чтобы принимать решения, опираясь на цифры, а не на гипотезы.
-
Результаты после курса:
• обрабатываете, анализируете и визуализируете данные с помощью Python и его библиотек
• используете в работе основные математические методы и теории обработки данных
• интерпретируете результаты анализа, находите и корректируете ошибки
• описываете реальные процессы и задачи на математическом языке
• строите и проверяете статистические гипотезы
• принимаете правильные решения на основе анализа данных
-
В финале курса сможете презентовать проект — результаты собственного анализа на основе одного из математических методов, который выберете самостоятельно.
В программу курса входят:
-
СИЛЬНЫЙ КОНТЕНТ Освоите основы научного и математического мышления, а также изучите математические методы и теории, необходимые для обработки данных.
-
ИНСТРУМЕНТЫ Будете использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, scikit-learn, scipy.stats.
-
ПРАКТИКА В финале обучения представите курсовой проект, посвященный использованию научного метода и статистического анализа для решения определенной проблемы.
-
ФИДБЕК ОТ МЕТОДИСТКИ Методистка курса — Виктория Дворик, Data Scientist в N-iX с 4-летним опытом в Data Science. Она будет проверять домашние задания, консультировать в Slack и на Q&A-сессиях.
-
КАРЬЕРА Получите фундаментальные знания математики, которые помогут развиваться в Data Science и понимать алгоритмы машинного обучения.
ЛЕКТОР:
Кристина
Исакова
- Data Scientist в Holidu (поиск и бронирование жилья)
- разрабатывала модели предсказаний и мониторинга метрик в немецкой транспортной компании FlixBus
- PhD в области математического моделирования
- имеет более 5 лет опыта на позиции Data Scientist
- проводит Time Series Analysis и находит аномалии в данных на позиции Data Scientist в немецком стартапе по поиску и бронированию жилья Holidu
- строит системы автоматизированной блокировки фрода и «плохих» пользователей
- преподавала физику и математику в Университете Генуи [Италия] и Гамбургском университете [Германия]
Программа курса:
-
01
Python для анализа данных: part 1
- Запускаете код в Jupyter Notebook
- Проводите базовые операции над числами и простыми структурами данных
- Применяете циклы for и while
- Понимаете, как сочетание «математика + Python» поможет вам в работе
-
02
Python для анализа данных: part 2
- Подключаете библиотеки Python
- Оперируете данными с помощью библиотек NumPy и Pandas
- Визуализируете данные и интерпретируете результаты с помощью библиотек Matplotlib и Seaborn
-
03
Дескриптивная статистика
- Применяете моду, медиану, среднее значение и среднеквадратическое отклонение для анализа данных
- Визуализируете результаты анализа и описываете данные
- Используете библиотеки Matplotlib, Seaborn и Plotly
-
04
Теория множеств
- Знаете, что такое множества и зачем они нужны
- Используете матрицы и векторы для анализа данных с помощью NumPy
- Применяете операции над множествами в работе с данными
- Умеете читать математические обозначения интегрального и дифференциального исчисления
- Используете диаграммы Венна для анализа проблем
-
05
Теория вероятности
- Знаете, что такое вероятность и условная вероятность
- Выполняете простые задания на вероятность
-
06
Случайные величины и распределения
- Применяете теорему Байеса в повседневной жизни при принятии решений
- Знаете, что такое распределение и как оно связано с вероятностью
- Понимаете, что такое математическое ожидание и дисперсия
- Умеете анализировать проблемы и задачи в рабочем контексте
- Описываете задачи с помощью математического ожидания, дисперсии и коэффициента эксцесса
-
07
Q&A-сессия с методистом
- Разберете свои вопросы на Live-сессии с методистом
-
08
Зависимость между случайными величинами
- Понимаете разницу между корреляцией и причинностью
- Умеете анализировать и использовать диаграмму рассеяния для анализа корреляции
- Знаете, что такое математическое ожидание, дисперсия, ковариация и корреляция
-
09
Основные распределения
- Знаете основные распределения, умеете их применять
- Определяете, какое распределение описывает вашу проблему
- Используете библиотеку stats
-
10
Данные. Статистика. Выборка
- Знаете, что такое статистика и какие проблемы она решает
- Выучили методы выборки
- Планируете и выполняете сборку данных
-
11
Точечная оценка
- Понимаете, что такое точечная оценка
- Знаете, как работает метод максимальной правдоподобности
- Используете простые статистики для оценки пропорций и средних значений
-
12
Интервальная оценка
- Знаете, что такое доверительный интервал
- Интерпретируете доверительный интервал
- Строите доверительные интервалы для простых проблем и понимаете, в каких случаях они не работают
-
13
Проверка статистических гипотез
- Знаете, что такое P-значение и как его интерпретировать
- Разбираетесь в типах ошибок
- Формулируете статистические гипотезы
- Проверяете простые статистические гипотезы разными методами
-
14
Q&A-сессия с методистом
- Разберете свои вопросы на Live-сессии с методистом
-
15
Анализ качественных данных
- Анализируете качественные данные
- Строите и анализируете таблицы сопряженности
- Проверяете адекватность модели с помощью chi-square и библиотеки stats
-
16
Статистика на практике
- Распознаете возможную ошибку в анализе и корректируете ее
- Проводите поправку при проверке множеств гипотез
-
17
Регрессионный анализ
- Формулируете проблему для линейной регрессии
- Используете scikit-learn для регрессионного анализа данных
- Проверяете результат регрессионного анализа на адекватность
- Регулируете свою модель разными методами в случае переобучения
-
18
Логистическая регрессия. Введение в машинное обучение
- Знаете, что такое статистическое обучение
- Решаете проблемы классификации с помощью логистической регрессии
- Применяете перекрестную проверку
- Используете scikit-learn для классификации данных с помощью логистической регрессии
- Используете scikit-learn для перекрестной проверки
- Умеете делать перекрестную проверку вручную
-
19
Q&A-сессия с методистом
- Разберете свои вопросы на Live-сессии с методистом
-
20
Выводы, или как врать с помощью статистики
- Знаете, как браться за решение проблем
- Понимаете, как снизить вероятность ошибок
-
21
Презентация курсового проекта
Регистрация