Сергей Бобровский
Data Scientist в отделении AI Platforms в Airbus
Практический курс о том, как принимать правильные решения на основе данных, находить закономерности, проверять гипотезы и делать прогнозы даже в условиях неопределенности.
На курсе вы заложите фундамент математического мышления, научитесь проводить регрессионный анализ, применять точечную и интервальную оценку, распределение и статистические модели для решения рабочих задач.
Вы научитесь использовать библиотеки Python для анализа и визуализации данных. Будете решать задачи прогнозирования и классификации при помощи математических формул и аналитики.
По итогам курса вы научитесь структурно работать с большим объемом данных, получите основательный математический бэкграунд и усилите свои компетенции.
Без фундаментальных знаний по математике и статистике не получится проанализировать данные, обучить модель, найти закономерности или предсказать что-то новое.
Поэтому на курсе мы начнем с основ линейной алгебры и теории множеств, изучим базовые опции библиотек NumPy, Pandas, MatPlotLib, Seaborn и Plotly. Затем углубимся в теорию вероятности и методы распределения данных. Будем применять точечную и интервальную оценку, проверять статистические гипотезы, строить регрессии и делать прогнозы.
В результате ― будете принимать правильные решения на основе анализа данных и сможете начать путь в Data Science.
Лектор выстроил программу так, чтобы вы не просто заучивали математические формулы и подходы, а понимали, как устроены процессы анализа и прогнозирования, и сразу же применяли знания на практике.
В процессе обучения вы будете использовать библиотеки NumPy, Pandas, MatPlotLib, Seaborn, Plotly, scikit-learn, scipy.stats.
Научитесь понимать и применять теорему Байеса, чтобы избегать ложных выводов и правильно рассуждать о вероятности. Будете находить закономерности, валидировать гипотезы, строить линейную и полиномиальную регрессии.
Получите фундаментальные знания по математике, с которыми сможете развиваться в Data Science и понимать алгоритмы машинного обучения. Это откроет перед вами возможности карьерного роста.
Начните знакомство с Python. Научитесь определять структуры данных и проводить операции над ними. Изучите базовые функции Jupyter Notebook. Запустите код в Jupyter Notebook.
Подключите библиотеки Python. Научитесь с их помощью упрощать подготовку и обработку данных. Откройте навык [умею оперировать данными при помощи библиотек NumPy и Pandas] и [визуализирую данные с помощью библиотек MatPlotLib и Seaborn].
Узнайте, как применять дескриптивную статистику для описания и визуализации данных. Научитесь применять моду, медиану, среднее значение и среднеквадратическое отклонение для анализа данных. Освойте визуализацию данных с помощью библиотек MatPlotLib, SeaBorn и Plotly.
Перейдите к изучению основных понятий теории множеств. Научитесь применять операции над множествами в работе с данными. Используйте диаграммы Венна для анализа проблем. Перейдите к работе с векторами и матрицами при помощи библиотеки NumPy. Освойте чтение математических обозначений для разработки и имплементации алгоритмов.
Узнайте, в чем состоит разница между вероятностью и статистикой. Освойте разные подходы к определению вероятности. Научитесь решать простые задачи на вероятность. Изучите теорему Байеса, чтобы правильно размышлять о вероятности в повседневной жизни.
Получите доступ к знаниям по темам: распределение, математическое ожидание, дисперсия, ковариация и корреляция. Установите взаимосвязь между распределением и вероятностью. Научитесь анализировать и использовать в работе диаграммы рассеяния для анализа корреляции.
Ознакомьтесь с примерами использования распределений, математического ожидания и дисперсии. Разберитесь в том, какая связь между распределением и вероятностью. Узнайте, поможет ли прохождение этого курса увеличить вашу зарплату: разница между корреляцией и причинностью. Научитесь анализировать и использовать в работе диаграммы рассеяния для анализа корреляции.
Изучите основные виды распределений: биномиальное распределение, распределение Пуассона, распределение Гаусса. Научитесь их применять. Получите доступ к возможности определять, какое распределение описывает вашу проблему. Начните использовать библиотеку stats.
Разберитесь в том, что такое статистика и какие вопросы она решает?. Изучите методы выборки. Научитесь планировать и выполнять сборку данных. Примените моду, медиану и среднее значение для анализа данных А затем визуализируйте результаты анализа и опишите данные с помощью библиотек MatPlotLib, SeaBorn и Plotly.
Научитесь предсказывать результаты выборов. Изучите понятие точечной оценки. Сделайте первые шаги к интерпретации данных: узнайте, что выборка говорит о настоящем распределении.
Научитесь правильно предсказывать результаты выборов. Используйте интервальную оценку для определения ошибок при интерпретации данных. Изучите, что такое доверительный интервал, какие бывают его примеры и интерпретации. Постройте доверительный интервал для простой проблемы.
Перейдите к изучению основных и конкурирующих гипотез. Узнайте, что такое P-значение и как его интерпретировать. Научитесь определять типы ошибок. Сформулируйте статистическую гипотезу. Затем проверьте ее разными методами.
Откройте доступ к знаниям о качественных переменных и непараметрических методах. Научитесь анализировать качественные данные. Постройте и проанализируйте таблицы сопряженности. Проверьте адекватность модели c помощью chi-square и библиотеки stats.
Научитесь использовать статистические методы на предприятии. Распознайте возможную ошибку в анализе и откорректируйте ее. Поймите, как проводить поправку при множественной проверке гипотез.
Изучите следующие понятия: линейная регрессия, полиномиальная регрессия, метод наименьших квадратов. Сформулируйте проблему для линейной регрессии. Используйте библиотеку scikit-learn для регрессионного анализа данных. Затем проверьте результат вашего регрессионного анализа на адекватность.
Познакомьтесь с основами статистического обучения. Научитесь решать проблемы классификации с помощью логистической регрессии. Используйте scikit-learn. Научитесь применять перекрестную проверку. И снова используйте scikit-learn. Затем попробуйте сделать перекрестную проверку вручную.