Data scientist вчера, сегодня, завтра

Data scientist вчера, сегодня, завтра

Как развивалась сфера и что нужно рынку сейчас.

Data science меняется быстрее других IT-индустрий. Десять, и даже пять лет назад мало кто знал о направлении, а фреймворков было мало. Сейчас все наоборот.

Галина Олейник, Head of data science в компании 1touch.io, рассказывает, чего ждут от современных data scientist'ов.

Эволюция data science
 

Многие проблемы, с которыми работает data science, не новы. 8-9 лет назад задачи регрессии, классификации, кластеризации уже решали с помощью классических подходов машинного обучения. Этим занимались algorithmic-программисты и software-инженеры. 

Десять лет назад в индустрии случился прорыв. Компании стали работать с большими данными. Оказалось, что datadriven-решения нужны многим отраслям. 

В Украине data science стала отдельной сферой 5 лет назад. Многие разработчики начали изучать, как работать с данными. Появились тематические ивенты. Вырос спрос на data scientist'ов на рынке. С плюсами пришли и минусы — из-за хайпа терминами AI и ML начали спекулировать создатели некачественных курсов и воркшопов.

Data science развивается быстрее других инженерных сфер. За последние 4 года требования к data специалистам изменились. Как — можно понять только изнутри. Я выделила ключевые направления. 

5 трендов data science
 

#1. Релевантный опыт

Компании ищут data scientist'ов, которые уже решали аналогичные бизнес-задачи. Еще пару лет назад кандидатов было меньше, и релевантный опыт был не у всех. Сегодня многие фокусируются на узких проблемах конкретных отраслей. Например, computer vision (компьютерное зрение), DSP (digital signal processing, цифровая обработка сигналов), NLP (natural language processing, обработка естественного языка).

Я работаю в основном с NLP-задачами: классификация текста, нахождение ключевиков в тексте, распознавание в нем named entities (именованных сущностей), сравнение двух текстов.

#2. Навыки software-инженера

Десять лет назад было сложно найти прототип готового кода для построения нужной модели, а фреймворков машинного обучения было не больше 10.

 Сегодня библиотек машинного обучения много. Благодаря им на разработку модели уходит несколько дней. Задеплоить модель в продакшн, поддерживать ее и масштабировать сложнее, чем создать.

Data scientist ответственен за весь цикл разработки и поддержки модели. Значит, он должен решать задачи в области software engineering. Чаще всего — интегрировать ML-сервис с остальными компонентами приложения. Например, задеплоить приложение, чтобы посмотреть, как работает ML-компонента. Или вытащить данные из базы, а потом обработать их с помощью ML-сервиса. 

 Поэтому многие data scientist'ы называют себя software engineer in machine learning.

#3. Важность soft skills

Раньше data scientist решал только сложные задачи машинного обучения, используя низкоуровневые фреймворки. Сейчас data scientist должен объяснять решения задач клиенту или CEO, а потом презентовать результаты так, чтобы легко было выделить бизнес-метрики.

Например, data scientist получает бизнес-требование от CEO, и должен рассказать, как и почему будет решать задачу. Так, нам в 1touch.io для решения некоторых NLP-задач нужно создать много моделей (вместо одной универсальной). Моя задача — объяснить, почему мы не можем сделать одну модель и как это связано с особенностями наших данных. 

Чтобы натренировать модель, надо провести анализ данных и предметной области, написать прототип, потом — оценить его перформанс, затем — проверить модель на устойчивость (протестировать на других данных). 

Когда мы составляем roadmap на следующие 3-4 месяца, нужно объяснить PM, почему создание одной модели занимает так много времени и включает так много задач. Важно уметь объяснять, не углубляясь в детали. Поэтому во многих компаниях data scientist’ы — еще и менеджеры.

#4. Востребованность сложных специализаций

Современные фреймворки, пакеты и библиотеки (TensorFlow, PyTorch, FastA, Hugging ace, OpenCv) упрощают работу data scientist'ов. 

Поэтому сейчас популярны направления, решающие сложные задачи, для которых мало готовых инструментов. Это генерация и анализ звука/голоса, анализ и создание видео в реальном времени.

Например, украинский стартап Respeecher создает аудио-дипфейки. Сервис синтезирует голоса. Это специфическая сфера digital signal processing, в которой мало специалистов. Поэтому проект долго собирал команду.

Ring Ukraine анализирует видео с камер (картинку и звук) в режиме реального времени. Это тоже нетривиальная задача, которую сложно реализовать.

#5. Появление дата-инженеров

Data engineering стал отдельной специальностью. Это подтверждает, что знания в области software engineering стали ценить гораздо выше, чем раньше. Для имплементации ML-решений хороший инженер может быть даже важнее, чем хороший data scientist.  Дата-инженер отвечает за обработку, хранение, трансформацию данных и решает смежные задачи в продакшене. Поэтому у него должно быть базовое понимание data science.

Ещё статьи