Технические и бизнес-навыки, которые имеют решающее значение для специалиста по данным

Существует шокирующая нехватка материалов о том, как нанять хороших специалистов по анализу данных. Было много статей о том, дорогой менеджер, как нанимать хороших сотрудников. Они варьируются от пушистых рекламных материалов, призывающих вас нанимать людей с характером (что бы это ни значило), до руководств по найму разработчиков программного обеспечения, которые ближе, но не попадают в цель. В области науки о данных есть свои проблемы, такие как работа с беспорядочными данными и представление нетехнических идей, почерпнутых из глубоко технических проблем. Я собираюсь пролить свет на то, как я нанимаю хороших специалистов по обработке данных в мою собственную компанию, от того, что делает кандидата идеальным, до того, как я интервьюирую и провожу тематические исследования.

Прежде чем переходить к моим методам, важно понять, что я ищу. Для этого вам нужно кое-что знать о том, кто я и чем занимается моя команда. Я директор по аналитике в Lenati, консалтинговой компании по маркетингу и стратегии продаж. Мы помогаем клиентам привлекать клиентов, улучшать программы лояльности и решать другие задачи, связанные с маркетингом и продажами. Хотя большинство людей в Lenati являются бизнесменами с дипломами MBA, в моей команде есть специалисты по обработке данных, которые используют данные клиентов для разработки нашего решения. Так, например, если Ленати работает с Hilton над пересмотром своей стратегии работы с клиентами, моя команда будет участвовать в сборе данных Hilton и использовании их для выяснения исторического поведения их клиентов.

Наши проекты обычно длятся 3–6 месяцев, и наш продукт представляет собой стратегию, основанную на аналитических данных, основанных на данных. Из-за этого мы редко предоставляем код или модель машинного обучения. Вместо этого это просто инструменты, которые мы используем для разработки стратегии, которую представляем клиенту. Итак, как и другие вакансии в области науки о данных:

  • Мы постоянно находимся на связи с заинтересованными сторонами нашего бизнеса.
  • Мы выполняем широкий спектр уровней анализа: от исследовательского анализа данных до сложного моделирования.
  • Получатель нашей работы часто практически не понимает науки о данных.

В отличие от других работ в области науки о данных, наша работа, как правило, выполняется только один раз - нам редко приходится обновлять наши модели или делать наш код долговечным. Мы также работаем с множеством разных компаний, поэтому мы должны быть готовы получать данные во всех форматах и ​​с ограниченным объяснением того, что это означает.

Идеальный кандидат: навыки

Идеальный кандидат имеет навыки в каждой из трех основных категорий: математика / статистика, базы данных / программирование и бизнес. Мой процесс приема на работу основан на том, чтобы зондировать кандидата в каждой области, чтобы увидеть, куда он попадает. Вот очень производная от диаграммы Диаграмма Венна Дрю Конвея, которую я построил на ней:

Математика и статистика

Я ищу их опыт в математике и статистике, чтобы показать мне, что они понимают концепции, необходимые для работы в области науки о данных. Это включает в себя базовую статистику (пример: линейная регрессия - что это такое и когда она хорошо работает) и построение модели (например: обучение по сравнению с тестовыми данными, различные модели обучения, такие как перекрестная проверка, что вообще означает «повышение»). Если кандидат достаточно опытен в этой области, он должен уметь перечислить различные модели, которые он использовал, и различные типы проблем, над которыми он работал.

Хотя кто-то со степенью в области статистики или науки о данных должен успешно сдать эту часть экзамена, кто-то с соответствующей степенью (математика, информатика или экономика) может не обладать компонентом машинного обучения этого навыка. Если у них нет знаний о машинном обучении, то наличие соответствующей степени предполагает, что они могут выбрать навык на работе. Один из моих лучших сотрудников имел степень магистра рыбной ловли. Во время учебы ему приходилось заниматься математическим моделированием, поэтому он освоил R и * бум! * Шесть месяцев спустя он стал довольно хорошим специалистом по данным (которого я тогда нанял).

Базы данных и программирование

В своей основной форме наука о данных - это искусство брать существующие данные и обрабатывать их осмысленным образом. Это означает, что вам нужно уметь (1) извлекать данные из источника и (2) обрабатывать их для получения информации. Идеальный кандидат должен обладать техническими знаниями для выполнения обоих этих шагов. Вопреки интуиции инструменты для получения данных и их обработки не совпадают.

Чтобы получить данные, кандидат должен разбираться в реляционных базах данных. Поскольку данные хранятся в реляционных базах данных, и они запрашиваются с помощью SQL, кандидат должен знать SQL. Иногда кандидат не знает SQL, но концептуально знает, как объединять таблицы и агрегировать их. В этом случае они могут подобрать SQL на работе. Если у них есть опыт хранения данных другими способами, такими как NoSQL, то это плюс, но я не ожидал этого. Недостаточно только знать, как читать данные из плоских файлов.

Если у вас есть данные, их нужно использовать. Это может означать сложный акт построения модели машинного обучения, но это определенно всегда означает создание визуализации материала. Кандидат должен уметь это делать, что требует написания кода. Если кандидат знает R, Python или MATLAB, он может приступить к работе с первого дня. Если они знают язык, более распространенный в разработке программного обеспечения, такой как Java, они могут легко выбрать язык, ориентированный на статистику. Существуют инструменты на основе графического интерфейса пользователя для выполнения этой работы, но если кандидат использовал только графические интерфейсы пользователя, то его набор навыков слишком ограничен, чтобы выполнять широкий спектр работы, которую я ожидаю от специалиста по данным.

Если у них есть опыт работы только с Excel, они не удовлетворяют этому требованию. Хотя Excel может создавать визуализации, это почти все, что он может, и даже не делает этого быстро. Использование только Excel показывает, что кандидат не задумывался о том, что можно делать за пределами Excel - или, что еще хуже, они решили, что предпочтут использовать только то, что они уже знают.

Кто-то со степенью информатики удовлетворяет это по определению. Аналитик данных часто работает только в Excel и не имеет прямого доступа к своим данным. Кто-то из бизнес-аналитиков может запрашивать данные, но им не хватает инструментов программирования для осмысленного манипулирования данными. Поэтому большинство аналитиков данных и специалистов по бизнес-аналитике не удовлетворяют этим критериям.

Бизнес

Посмотрим правде в глаза: способность понимать бизнес-среду и работать в ней так же важна, как и статистика и программирование. Вся идея науки о данных заключается в использовании технических навыков для создания реального мира, практических идей, поэтому вы должны быть в состоянии понять, как работает реальный мир и какие идеи нужны людям. Кандидат должен уметь:

  1. понять проблему, с которой сталкивается человек или отдел в компании,
  2. превратить это в проблему, которую может решить наука о данных,
  3. решить ее (используя свои математические / статистические данные или базы данных / навыки программирования) и
  4. преобразовать это решение в идею, которую может использовать тот, кто ничего не знает о науке о данных.

75% этих шагов связаны с основами бизнеса. Например, если у компании возникают проблемы с рекламными сообщениями электронной почты, кандидат может рассмотреть возможность сегментирования получателей электронной почты с использованием алгоритма кластеризации и предоставления каждому сегменту персонализированного электронного письма. Если в их подходе использовался алгоритм k- означает с 7 кластерами, кандидат должен быть в состоянии объяснить, почему он выбрал 7, тому, кто не знает, что такое алгоритм кластеризации. В зависимости от своего уровня они также должны понимать, как часто нужно связываться с клиентом или заинтересованным лицом проекта, уметь задавать вопросы владельцу данных, если он не понимает, что находится в данных, и создавать хорошо отформатированный PowerPoint. Этому требованию обычно удовлетворяет человек с многолетним опытом работы в компании.

Идеальный кандидат: персонаж

Чтобы украсть из Руководства по найму разработчиков программного обеспечения Джоэла, я ищу кого-нибудь, кто:

  1. Умный и
  2. Делает дела.

Я считаю, что «умный» означает «способность узнавать новое». Я хочу увидеть некоторые доказательства того, что, когда они попадают в ситуацию, когда они не знают, что делать, они могут узнать и понять это: у них есть стремление к разрешению проблем. Это может означать изучение нового языка, новой техники моделирования или нового бизнес-процесса. Многие люди проводят всю свою карьеру, делая только то, что они уже знают, избегая необходимости изучать новый процесс. Из этих людей, как правило, получаются плохие специалисты по данным, поскольку вся сфера деятельности связана с использованием данных для обучения.

Я думаю, что «доведение дела до конца» - это общее желание и способность найти решение. Наука о данных наполнена местами, в которых человек может застрять: существует бесчисленное множество способов сократить набор данных, сотни различных моделей машинного обучения, каждая из которых имеет различные параметры, которые необходимо настроить, и множество способов сообщить о результатах. Тот, кто добивается цели, может просмотреть различные варианты и выбрать тот, который работает, и затем фактически реализовать его.

Так что это идеальный кандидат в области науки о данных. У них есть навыки в математике и статистике, поэтому они знают, как работать с числами и строить модели. Они знают базы данных и программирование, поэтому могут брать реальные данные и действительно что-то с ними делать. Они достаточно хорошо понимают, как работают предприятия, чтобы найти проблему, создать для нее решение в области науки о данных, а затем убедить ученых, не занимающихся данными, в том, что оно хорошее. Им нужно быть умными и добиваться цели. Однако человек, обладающий всеми этими качествами, не просто вальсирует в мой офис с просьбой о работе с зарплатой, которую я могу себе позволить. Так что же я понимаю, что не могу нанять идеального человека? Об этом мы поговорим в следующих частях этой серии. Конкретно:

Если вы хотите найти массу способов сделать карьеру в области науки о данных, посмотрите книгу, которую мы с Эмили Робинсон написали: Постройте карьеру в области науки о данных. Мы поможем вам получить необходимые навыки, чтобы стать специалистом по обработке данных, найти свою первую работу, а затем подняться на руководящие должности.