Как меняется роль Data Scientist: 9 актуальных трендов

Которые влияют на развитие профессии и рынка труда

Data science меняется быстрее других IT-индустрий. Десять, и даже пять лет назад мало кто знал о направлении, а фреймворков было мало. Сейчас все наоборот.

Галина Олейник, Head of data science в компании 1touch.io, рассказывает, чего ждут от современных data scientist'ов.

Эволюция data science

Многие проблемы, с которыми работает data science, не новы. 8-9 лет назад задачи регрессии, классификации, кластеризации уже решали с помощью классических подходов машинного обучения. Этим занимались algorithmic-программисты и software-инженеры.

Десять лет назад в индустрии случился прорыв. Компании стали работать с большими данными. Оказалось, что datadriven-решения нужны многим отраслям.

В Украине data science стала отдельной сферой 5 лет назад. Многие разработчики начали изучать, как работать с данными. Появились тематические ивенты. Вырос спрос на data scientist'ов на рынке. С плюсами пришли и минусы — из-за хайпа терминами AI и ML начали спекулировать создатели некачественных курсов и воркшопов.

Data science развивается быстрее других инженерных сфер. За последние 4 года требования к data специалистам изменились. Как — можно понять только изнутри. Я выделила ключевые направления.

9 трендов data science

#1. Релевантный опыт

Компании ищут data scientist'ов, которые уже решали аналогичные бизнес-задачи. Еще пару лет назад кандидатов было меньше, и релевантный опыт был не у всех. Сегодня многие фокусируются на узких проблемах конкретных отраслей. Например, computer vision (компьютерное зрение), DSP (digital signal processing, цифровая обработка сигналов), NLP (natural language processing, обработка естественного языка).

Я работаю в основном с NLP-задачами: классификация текста, нахождение ключевиков в тексте, распознавание в нем named entities (именованных сущностей), сравнение двух текстов.

#2. Навыки software-инженера

Десять лет назад было сложно найти прототип готового кода для построения нужной модели, а фреймворков машинного обучения было не больше 10.

Сегодня библиотек машинного обучения много. Благодаря им на разработку модели уходит несколько дней. Задеплоить модель в продакшн, поддерживать ее и масштабировать сложнее, чем создать.

Data scientist ответственен за весь цикл разработки и поддержки модели. Значит, он должен решать задачи в области software engineering. Чаще всего — интегрировать ML-сервис с остальными компонентами приложения. Например, задеплоить приложение, чтобы посмотреть, как работает ML-компонента. Или вытащить данные из базы, а потом обработать их с помощью ML-сервиса.

Поэтому многие data scientist'ы называют себя software engineer in machine learning.

#3. Важность soft skills

Раньше data scientist решал только сложные задачи машинного обучения, используя низкоуровневые фреймворки. Сейчас data scientist должен объяснять решения задач клиенту или CEO, а потом презентовать результаты так, чтобы легко было выделить бизнес-метрики.

Например, data scientist получает бизнес-требование от CEO, и должен рассказать, как и почему будет решать задачу. Так, нам в 1touch.io для решения некоторых NLP-задач нужно создать много моделей (вместо одной универсальной). Моя задача — объяснить, почему мы не можем сделать одну модель и как это связано с особенностями наших данных.

Чтобы натренировать модель, надо провести анализ данных и предметной области, написать прототип, потом — оценить его перформанс, затем — проверить модель на устойчивость (протестировать на других данных).

Когда мы составляем roadmap на следующие 3-4 месяца, нужно объяснить PM, почему создание одной модели занимает так много времени и включает так много задач. Важно уметь объяснять, не углубляясь в детали. Поэтому во многих компаниях data scientist’ы — еще и менеджеры.

#4. Востребованность сложных специализаций

Современные фреймворки, пакеты и библиотеки (TensorFlow, PyTorch, FastA, Hugging ace, OpenCv) упрощают работу data scientist'ов.

Поэтому сейчас популярны направления, решающие сложные задачи, для которых мало готовых инструментов. Это генерация и анализ звука/голоса, анализ и создание видео в реальном времени.

Например, украинский стартап Respeecher создает аудио-дипфейки. Сервис синтезирует голоса. Это специфическая сфера digital signal processing, в которой мало специалистов. Поэтому проект долго собирал команду.

Ring Ukraine анализирует видео с камер (картинку и звук) в режиме реального времени. Это тоже нетривиальная задача, которую сложно реализовать.

#5. Дополненная аналитика

Дополненная аналитика — один из самых быстрорастущих трендов в мире науки о данных. Она сочетает передовые технологии, такие как машинное обучение (ML), искусственный интеллект (AI) и обработка естественного языка (NLP), чтобы автоматизировать процессы анализа данных. Это дает возможность компаниям получать инсайты из больших объемов информации гораздо быстрее, с меньшими затратами времени и с большей точностью.

Благодаря этому также снижается количество ошибок, поскольку технологии, такие как AI и ML, обеспечивают более точный анализ, чем традиционные методы. Благодаря автоматизации рутинных процессов компании могут сосредоточиться на более важных задачах, например, на разработке стратегии или инновационных решениях.

Дополненная аналитика уже становится стандартом для многих компаний, стремящихся быть на шаг впереди своих конкурентов, принимать быстрые и обоснованные решения и реагировать на изменения рынка с максимальной эффективностью.

#6. Обработка естественного языка (NLP)

Будущее науки о данных тесно связано с развитием технологий обработки естественного языка (NLP), и спрос на специалистов в этой сфере будет только расти. С каждым годом алгоритмы становятся все более сложными, что открывает новые возможности для их применения: от улучшенных чат-ботов и виртуальных ассистентов до более глубокого анализа текстовых данных и автоматизированного создания контента.

Специалисты, работающие с NLP, будут играть ключевую роль в том, чтобы сделать машинное понимание речи еще более точным и контекстно осведомленным. Они будут не только разрабатывать новые модели и алгоритмы, но и адаптировать их под реальные бизнес-потребности. В будущем успешный специалист по NLP должен будет не только владеть классическими методами машинного обучения, но и глубоко понимать лингвистику, этику работы с языковыми моделями и оптимизацию вычислительных ресурсов.

Также важно, что NLP становится все более доступным для различных отраслей, а значит, растет спрос на специалистов, способных интегрировать эти решения в финансы, медицину, маркетинг, юриспруденцию и другие сферы.

#7. Роботизированная автоматизация процессов (RPA)

Финансовые учреждения постоянно сталкиваются с необходимостью обрабатывать огромные объемы данных — будь то транзакции, заявки на кредиты или мониторинг мошенничества Это требует не только большого количества ресурсов, но и времени. Вот тут на помощь приходит роботизированная автоматизация процессов (RPA) — и это уже не просто тренд, а реальный путь к оптимизации.

В ближайшие годы наука о данных в банковском деле будет развиваться путем активного внедрения RPA для автоматизации таких задач, как оценка рисков, обработка кредитов, проверка безопасности или даже составление отчетов. Если в прошлом эти процессы требовали десятков часов работы, то теперь их можно выполнить за считанные минуты. Это позволит банкам и финансовым компаниям сосредоточиться на стратегических задачах и реальных потребностях клиентов.

Таким образом, будущее RPA будет тесно связано с финтех Data Science. Используя уже существующие алгоритмы, которые могут автоматически адаптироваться к новым ситуациям и выявлять тренды, финансовые учреждения смогут еще точнее прогнозировать будущие риски и уменьшать вероятность ошибок.

#8. Рост популярности Python

Python уже давно стал любимым языком программирования для многих специалистов по данным, и его популярность только растет. Способность решать самые разные задачи — от анализа данных до разработки моделей машинного обучения — делает его универсальным инструментом, без которого не обходится большинство современных проектов в сфере науки о данных.

Простота изучения и применения Python открывает возможности не только для опытных разработчиков, но и для тех, кто лишь начинает свой путь в мире данных. Более того, значительное количество библиотек и фреймворков позволяет эффективно работать с большими объемами данных, проводить анализ и даже создавать сложные модели машинного обучения без лишних трудностей.

#9. Explainable AI (XAI)

Искусственный интеллект становится все сложнее, поэтому тренд на Explainable AI (XAI) набирает популярность. Этот подход ставит целью сделать модели ИИ понятными для людей, что поможет обеспечить доверие и этическое использование технологий. Для специалистов по данным это означает новые требования к созданию моделей, которые будут не только точными, но и прозрачными.

С развитием XAI специалисты смогут разрабатывать системы, которые легко объясняют свои решения, что важно для многих сфер: от финансов до здравоохранения. В будущем это приведет к более широкому внедрению ИИ, сделает его доступнее для пользователей и увеличит возможности для науки о данных.

Авторки: Галина Олейник, Рогнеда Княжина