Сергій Бобровський
Data Scientist у відділенні AI Platforms в Airbus
Практичний курс про те, як приймати правильні рішення на основі даних, знаходити закономірності, перевіряти гіпотези та робити прогнози навіть в умовах невизначеності.
На курсі ви закладете фундамент математичного мислення, навчитеся проводити регресійний аналіз, застосовувати точкову та інтервальну оцінку, розподіл і статистичні моделі для розв'язання робочих задач.
Ви навчитеся використовувати бібліотеки Python для аналізу та візуалізації даних. Розв'язуватимете задачі прогнозування та класифікації за допомогою математичних формул і аналітики.
За результатами курсу ви навчитеся структурно працювати з великим обʼємом даних, отримаєте ґрунтовний математичний бекграунд і посилите свої компетенції.
Без ґрунтовних знань математики та статистики не вийде проаналізувати дані, навчити модель, знайти закономірності або передбачити щось нове.
Тому на курсі ми почнемо з основ лінійної алгебри та теорії множин, вивчимо базові опції бібліотек NumPy, Pandas, Matplotlib, Seaborn і Plotly. Потім зануримось у теорію ймовірності та методи розподілення даних. Будемо застосовувати точкову та інтервальну оцінку, перевіряти статистичні гіпотези, будувати регресії та робити прогнози.
У результаті ви навчитеся приймати правильні рішення на основі аналізу даних і зможете почати свій шлях в Data Science.
Лектор побудував програму так, щоб ви не просто заучували математичні формули та підходи, а розуміли, як влаштовані процеси аналізу і прогнозування, і одразу застосовували знання на практиці.
В процесі навчання ви будете використовувати бібліотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, scikit-learn, scipy.stats.
Навчитеся розуміти та застосовувати теорему Баєса, щоб запобігати хибних висновків і правильно міркувати про вірогідності. Будете знаходити закономірності, валідувати гіпотези, будувати лінійну та поліноміальну регресії.
Отримаєте фундаментальні знання з математики, які допоможуть розвиватися в Data Science та розуміти алгоритми машинного навчання. Це відкриє перед вами можливості карʼєрного зростання.
Почніть знайомство з Python. Навчіться визначати структури даних і проводити операції над ними. Вивчіть базові функції Jupyter Notebook. Запустіть код в Jupyter Notebook.
Під'єднайте бібліотеки Python. Навчіться з їх допомогою спрощувати підготовку та обробку даних. Відкрийте навичку [вмію оперувати даними за допомогою бібліотек NumPy та Pandas] та [візуалізую дані за допомогою бібліотек Matplotlib та Seaborn].
Дізнайтеся, як користуватися дескриптивною статистикою для опису та візуалізації даних. Навчіться застосовувати моду, медіану, середнє значення та середньоквадратичне відхилення для аналізу даних. Опануйте візуалізацію даних за допомогою бібліотек Matplotlib, Seaborn та Plotly.
Перейдіть до вивчення основних понять теорії множин. Навчіться застосовувати операції над множинами в роботі з даними. Використовуйте діаграми Венна для аналізу проблем. Перейдіть до роботи з векторами та матрицями за допомогою бібліотеки NumPy. Опануйте читання математичних позначень розробки та імплементації алгоритмів.
Дізнайтеся, у чому різниця між ймовірністю та статистикою. Опануйте різні підходи визначення ймовірності. Навчіться вирішувати прості завдання на ймовірність. Вивчіть теорему Баєса, щоб правильно міркувати про ймовірність у повсякденному житті.
Отримайте доступ до знань на теми: розподіл, математичне сподівання, дисперсія, коваріація та кореляція. Встановіть взаємозв'язок між розподілом та ймовірністю. Навчіться аналізувати та використовувати в роботі діаграми розсіювання для аналізу кореляції.
Ознайомтеся з прикладами використання розподілів, математичного сподівання та дисперсії. Розберіться в тому, який зв'язок між розподілом та ймовірністю. Дізнайтеся, чи допоможе проходження цього курсу збільшити вашу зарплату: різниця між кореляцією та причинністю. Навчіться аналізувати та використовувати в роботі діаграми розсіювання для аналізу кореляції.
Вивчіть основні види розподілів: біноміальний розподіл, розподіл Пуассона, розподіл Гауса. Навчіться їх застосовувати. Отримайте доступ до можливості визначити, який розподіл описує вашу проблему. Почніть використовувати бібліотеку stats.
Розберіться в тому, що таке статистика та які питання вона вирішує. Вивчіть методи вибірки. Навчіться планувати та виконувати складання даних. Застосуйте моду, медіану та середнє значення для аналізу даних, а потім візуалізуйте результати аналізу та опишіть дані за допомогою бібліотек Matplotlib, Seaborn та Plotly.
Навчіться передбачати результати виборів. Вивчіть поняття точкової оцінки. Зробіть перші кроки до інтерпретації даних: дізнайтеся, що вибірка свідчить про розподіл.
Навчіться правильно передбачати результати виборів. Використовуйте інтервальну оцінку для визначення помилок під час інтерпретації даних. Вивчіть, що таке довірчий інтервал, які бувають його приклади та інтерпретації. Побудуйте довірчий інтервал для простої проблеми.
Перейдіть до вивчення основних та альтернативних гіпотез. Дізнайтеся, що таке P-значення та як його інтерпретувати. Навчіться визначати типи помилок. Сформулюйте статистичну гіпотезу. Потім перевірте її у різний спосіб.
Відкрийте доступ до знань про якісні змінні та непараметричні методи. Навчіться аналізувати якісні дані. Побудуйте та проаналізуйте таблиці сполученості. Перевірте адекватність моделі за допомогою chi-square та бібліотеки stats.
Навчіться використовувати статистичні методи на підприємстві. Розпізнайте можливу помилку в аналізі та відкоригуйте її. Зрозумійте, як проводити виправлення при множинній перевірці гіпотез.
Вивчіть такі поняття: лінійна регресія, поліноміальна регресія, метод найменших квадратів. Сформулюйте проблему для лінійної регресії. Використовуйте бібліотеку scikit-learn для регресійного аналізу даних. Потім перевірте результат регресійного аналізу на адекватність.
Познайомтеся з основами статистичного навчання. Навчіться розв'язувати проблеми класифікації за допомогою логістичної регресії. Використовуйте scikit-learn. Навчіться застосовувати перехресну перевірку. І знову використовуйте scikit-learn. Потім спробуйте зробити перехресну перевірку вручну.