Як змінюється роль Data Scientist: 9 актуальних трендів

Що впливають на розвиток професії та ринку праці

Data Science змінюється швидше за інші IT-індустрії. Десять і навіть п’ять років тому мало хто знав про напрям, а фреймворків було мало. Зараз усе навпаки.

Галина Олійник, Head of Data Science у компанії 1touch.io, розповідає, чого чекають від сучасних Data Scientist'ів.

Еволюція Data Science

Багато проблем, з якими працює Data Science, не нові. 8–9 років тому завдання регресії, класифікації, кластеризації вже розв’язували за допомогою класичних підходів машинного навчання. Цим займалися algorithmic-програмісти й software-інженери.

Десять років тому в індустрії стався прорив. Компанії почали працювати з великими даними. Виявилося, що data-driven рішення потрібні багатьом галузям.

В Україні Data Science стала окремою сферою 5 років тому. Багато розробників почали вивчати, як працювати з даними. З’явилися тематичні івенти. Зріс попит на Data Scientist’ів на ринку. З плюсами прийшли й мінуси — через хайп термінами AI та ML почали спекулювати творці неякісних курсів і воркшопів.

Data Science розвивається швидше за інші інженерні сфери. За останні 4 роки вимоги до data-фахівців змінилися. Як — можна зрозуміти тільки зсередини. Я виділила ключові напрями.

9 трендів Data Science

#1. Релевантний досвід

Компанії шукають Data Scientist’ів, які вже розв’язували аналогічні бізнес-завдання. Ще кілька років тому кандидатів було менше і релевантний досвід був не у всіх. Сьогодні багато хто фокусується на вузьких проблемах конкретних галузей. Наприклад, Computer Vision (комп’ютерний зір), DSP (Digital Signal Processing, цифрове оброблення сигналів), NLP (Natural Language Processing, оброблення природної мови).

Я працюю переважно з NLP-завданнями: класифікація тексту, знаходження ключових слів у тексті, розпізнавання в ньому named entities (іменованих сутностей), порівняння двох текстів.

#2. Навички software-інженера

Десять років тому було складно знайти прототип готового коду для побудови потрібної моделі, а фреймворків машинного навчання було не більш як 10.

Сьогодні бібліотек машинного навчання багато. Завдяки їм на розробку моделі йде кілька днів. Задеплоїти модель у продакшн, підтримувати її та масштабувати складніше, ніж створити.

Data Scientist відповідальний за весь цикл розробки та підтримки моделі. Отже, він має розв’язувати завдання в галузі Software Engineering. Найчастіше — інтегрувати ML-сервіс з іншими компонентами застосунку. Наприклад, задеплоїти застосунок, щоб подивитися, як працює ML-компонента. Або витягнути дані з бази, а потім обробити їх за допомогою ML-сервісу. Тому багато Data Scientist’ів називають себе Software Engineer in Machine Learning.

#3. Важливість soft skills

Раніше Data Scientist розв’язував тільки складні завдання машинного навчання, використовуючи низькорівневі фреймворки. Зараз — повинен пояснювати розв’язання задач клієнту або CEO, а потім презентувати результати так, щоб легко було виділити бізнес-метрики.

Наприклад, Data Scientist отримує бізнес-вимогу від CEO та має розповісти, як і чому розв’язуватиме завдання. Так, нам в 1touch.io для розв’язання деяких NLP-завдань потрібно створити багато моделей (замість однієї універсальної). Моє — пояснити, чому ми не можемо зробити одну модель і як це пов’язано з особливостями наших даних.

Щоб натренувати модель, треба провести аналіз даних і предметної зони, написати прототип, потім — оцінити його перформанс, потім — перевірити модель на стійкість (протестувати на інших даних).

Коли ми складаємо roadmap на наступні 3–4 місяці, потрібно пояснити PM, чому створення однієї моделі займає так багато часу й охоплює так багато завдань. Важливо вміти пояснювати, не заглиблюючись у деталі. Тому в багатьох компаніях Data Scientist’и — ще й менеджери.

#4. Попит на складні спеціалізації

Сучасні фреймворки, пакети й бібліотеки (TensorFlow, PyTorch, FastA, Hugging ace, OpenCv) спрощують роботу Data Scientist’ів.

Тому зараз популярними є напрями, що розв’язують складні завдання, для яких мало готових інструментів. Це генерація та аналіз звуку/голосу, аналіз і створення відео в реальному часі.

Наприклад, український стартап Respeecher створює аудіодипфейки. Сервіс синтезує голоси. Це специфічна сфера Digital Signal Processing, у якій мало фахівців. Тому проєкт довго збирав команду.

Ring Ukraine аналізує відео з камер (картинку і звук) у режимі реального часу. Це теж нетривіальне завдання, яке складно реалізувати.

#5. Доповнена аналітика

Доповнена аналітика — це один з найшвидше зростальних трендів у світі науки про дані. Вона поєднує передові технології, як-от машинне навчання (ML), штучний інтелект (AI) та обробка природної мови (NLP), щоб автоматизувати процеси аналізу даних. Це дає змогу компаніям отримувати інсайти з великих обсягів інформації набагато швидше, з меншими затратами часу та з більшою точністю.

Завдяки цьому також знижується кількість помилок, оскільки технології, як-от AI та ML, забезпечують точніший аналіз, ніж традиційні методи. Завдяки автоматизації рутинних процесів компанії можуть зосередитися на важливіших завданнях, наприклад, на розробці стратегії чи інноваційних рішеннях.

Доповнена аналітика вже стає стандартом для багатьох компаній, що прагнуть бути на крок попереду своїх конкурентів, ухвалювати швидкі та обґрунтовані рішення і реагувати на зміни ринку з максимальною ефективністю.

#6. Обробка природної мови (NLP)

Майбутнє науки про дані тісно пов’язане з розвитком технологій обробки природної мови (NLP), і попит на спеціалістів у цій сфері лише зростатиме. З кожним роком алгоритми стають дедалі складнішими, що відкриває нові можливості для їхнього застосування: від покращених чат-ботів і віртуальних асистентів до глибшого аналізу текстових даних та автоматизованого створення контенту.

Фахівці, які працюють із NLP, матимуть ключову роль у тому, щоб зробити машинне розуміння мови ще точнішим і контекстно обізнаним. Вони не лише розроблятимуть нові моделі та алгоритми, а й адаптуватимуть їх під реальні бізнес-потреби. У майбутньому успішний спеціаліст з NLP повинен буде не лише орієнтуватися в класичних методах машинного навчання, а й глибоко розуміти лінгвістику, етику роботи з мовними моделями та оптимізацію обчислювальних ресурсів.

Також важливо, що NLP стає дедалі доступнішим для різних галузей, а отже, зростає попит на спеціалістів, здатних інтегрувати ці рішення у фінанси, медицину, маркетинг, юриспруденцію та інші сфери.

#7. Роботизована автоматизація процесів (RPA)

Фінансові установи постійно стикаються з потребою обробляти величезні обсяги даних, як-от транзакції, заявки на кредити або моніторинг шахрайства. Це вимагає не лише великої кількості ресурсів, а й часу. Ось тут на допомогу приходить роботизована автоматизація процесів (RPA) — і це вже не просто тренд, а реальний шлях до оптимізації.

У найближчі роки наука про дані в банківській справі розвиватиметься шляхом активного впровадження RPA для автоматизації таких завдань, як-от оцінка ризиків, обробка кредитів, перевірка безпеки або навіть складання звітів. Якщо в минулому ці процеси потребували десятків годин роботи, то тепер їх можна виконати за лічені хвилини. Це дасть змогу банкам і фінансовим компаніям зосередитися на стратегічних завданнях і реальних потребах клієнтів.

Отже, майбутнє RPA буде тісно пов’язане з фінтех Data Science. Використовуючи вже наявні алгоритми, які можуть автоматично адаптуватися до нових ситуацій і виявляти тренди, фінансові установи зможуть ще точніше прогнозувати майбутні ризики та зменшувати ймовірність помилок.

#8. Зростання популярності Python

Python вже давно став улюбленою мовою програмування для багатьох спеціалістів з даних, і його популярність тільки зростає. Здатність розв’язувати найрізноманітніші завдання — від аналізу даних до розробки моделей машинного навчання — робить його універсальним інструментом, без якого не обходиться більшість сучасних проєктів у сфері науки про дані.

Простота вивчення та застосування Python відкриває можливості не лише для досвідчених розробників, а й для тих, хто тільки починає свій шлях у світі даних. Крім того, значна кількість бібліотек і фреймворків дає змогу ефективно працювати з великими обсягами даних, проводити аналіз і навіть створювати складні моделі машинного навчання без зайвих труднощів.

#9. Explainable AI (XAI)

Штучний інтелект стає дедалі складнішим, тому тренд на Explainable AI (XAI) набуває популярності. Цей підхід ставить за мету зробити моделі ШІ зрозумілими для людей, що допоможе забезпечити довіру та етичне використання технологій. Для фахівців з даних це означає нові вимоги до створення моделей, які будуть не тільки точними, а й прозорими.

З розвитком XAI спеціалісти зможуть розробляти системи, які легко пояснюють свої рішення, що важливо для багатьох сфер: від фінансів до охорони здоров’я. У майбутньому це призведе до ширшого впровадження ШІ, зробить його доступнішим для користувачів і збільшить можливості для науки про дані.

Авторки: Галина Олійник, Рогнєда Княжина

Поділитися: