Мы живем в эпоху неопределенности. Неясно, как будет развиваться экономика после COVID-19 (быстрое / медленное восстановление, где и какие отрасли промышленности будут больше затронуты и т. Д.). Неизвестно, как отныне будут работать технические специалисты (физические или удаленные сайты). И, конечно, все еще не ясно, что именно Data Scientist (DS) должен и должен делать (и не должен) делать в отрасли.

Наука о данных? Не моя любимая номенклатура…

Известный академический исследователь Питер Флах (10 лет главный редактор журнала Машинное обучение) недавно опубликовал статью, в которой говорит, что Data Science - не очень хорошая номенклатура для этой области. Основная причина такого утверждения заключается в том, что наука о данных склонна к ошибочным интерпретациям, предполагая, что врачи, биохимики или инженеры-строители являются специалистами по данным, если они интенсивно работают с данными (иначе говоря, управляемые данными). Таким образом, профессор Флах предпочитает термин наука о данных, определяя его следующим образом: (…) субъект, изучающий данные во всех их проявлениях, вместе с методами и алгоритмами для манипулирования, анализа, визуализации и обогащения данных. Методологически он близок к информатике и статистике, сочетая теоретические, алгоритмические и эмпирические работы (…) . И это важно подчеркнуть: Я полностью с ним согласен.

Тем не менее, в отрасли наблюдается тенденция к созданию «специалистов по анализу данных с полным стеком». Существует множество статей, поддерживающих эту тенденцию ... но я оставляю вам интересный короткий список для справки:

«Специалисты по обработке данных Full Stack» - всего лишь еще одна грань ажиотажа в области искусственного интеллекта.

Согласно этой тенденции, эти мифологические люди должны уметь понимать бизнес-проблему, проводить анализ первопричин и вырабатывать гипотезы (как это сделал бы обычный консультант по стратегии большой тройки), готовить все данные, которые они потребуются + конвейеры данных, необходимые для запуска чего-либо в облако, создания модели (ей), проверки модели (ей), развертывания модели (ей), мониторинга модели (ей) в производственной среде - с точки зрения DevOps ( правильно ли работает / масштабируется сервис?), с точки зрения бизнеса (обеспечивает ли он ожидаемые целевые KPI?), с точки зрения ученого (хорошо ли обобщает? Есть ли какое-то отклонение от концепции?) ввести ожидаемый формат?) - и, конечно же, иметь возможность представить ожидаемые / полученные результаты разнородной аудитории заинтересованных сторон в краткой и в то же время понятной форме. Наконец - и это самый важный навык - специалист по анализу данных должен уметь летать! :)

Естественно, я не разделяю эту универсальную точку зрения DS - или, по крайней мере, не полностью, как вы поймете в следующих частях этого поста, - поскольку эти люди, как правило, очень редки (и, если они существуют, они не должны быть специалистами по данным на уровне сотрудников / членов команды, но вместо этого быть лидерами). Эта новая шумиха вокруг DS идет в направлении повышения ожиданий того, что эксперты в области искусственного интеллекта / специалисты по данным (термины, которые я здесь использую взаимозаменяемо для удобства писателя, но не совсем одно и то же) могут и должны довести до нереалистичных уровней. Короче говоря, специалисты по обработке данных с полным стеком - это всего лишь еще одна грань ажиотажа в области искусственного интеллекта. И, как нам демонстрируют другие слои нашего общества, история имеет свойство повторяться - в данном случае риск вскоре столкнуться с еще одной ИИ-зимой.

Mayday, Mayday ... нам нужны специалисты по данным, чтобы заниматься наукой о данных!

Специалисты по анализу данных должны хорошо разбираться в науке о данных. А проблемы Data Science уже достаточно сложно решить per se… представьте, если вы: а) не являетесь специалистом и б) вам все еще нужно самостоятельно позаботиться обо всех этих вещах, связанных с производством данных. Выглядит довольно сложно… не так ли?

«Если бы у меня был час на решение проблемы, я бы потратил 55 минут на размышления о проблеме и 5 минут на размышления о решениях». Альберт Эйнштейн

Обычно я не трачу время на ведение блогов. Когда я вижу, как другие лидеры науки о данных делают одно сообщение в LinkedIn в день, несколько сообщений в блогах в месяц и даже несколько книг каждый год ... Мне интересно, не спят ли они или, наоборот, просто вообще не работает над Data Science (!!!). Всякий раз, когда мне хочется внести свой вклад в сообщество DS, я предпочитаю делать это с технической стороны, участвуя (в качестве автора, члена комитета или председателя трека) в «лучших рецензируемых местах в площадь". Тем не менее, эта проблема ажиотажа настолько сильно влияет на отрасль, что я считаю, что такой вклад поможет другим коллегам (как на уровне персонала, так и на уровне руководства) лучше организовать свою карьеру и / или пути обучения, рабочую нагрузку, командную работу и, в конечном итоге, пропускная способность и влияние на бизнес.

Цель этого поста - объяснить, почему еще один причудливый термин для определения роли специалиста по данным не является такой уж хорошей идеей. Более того, я также указываю, где подводные камни такой шумихи и каковы реальные проблемы, которые необходимо решить, чтобы способствовать повсеместному промышленному внедрению науки о данных. Конечная цель (я считаю, что все мы) - поднять планку успешных бизнес-кейсов на основе машинного обучения (прогнозная и предписывающая аналитика) до стандарта обычного ведения бизнеса. По крайней мере, это моя главная мотивация.

Помимо настоящего сообщения, озаглавленного Начало, в этом сообщении есть еще две части. Во второй части, Падение, я буду разбирать четыре ключевых аргумента (I-IV) тех, кто утверждает, что DS универсальный - лучший способ (vs. специалисты). Наконец, в части III, The Rise, я представлю три ключевые идеи для решения реальных проблем, стоящих за этими проблемами, включая определение того, что должен делать современный специалист по данным. И да, хотя я предпочитаю Бэтмена Супер-человеку, название сообщения в блоге не имеет ничего общего с фильмами трилогии о Темном рыцаре.

Хотите узнать больше? Дождитесь следующих двух частей… в блоге рядом с вами.

P.S .: Хочу лично поблагодарить Fernando Costa и Sven Thies за время, которое они потратили на просмотр этих постов. Престижность двум из них.

Ученый нулевого стека - Часть II, Падение ››