За последние несколько месяцев несколько друзей, коллег и знакомых присылали мне электронные письма и спрашивали, как устроиться на работу в области анализа данных или как научиться анализу данных. Этот пост представляет собой обобщение моих ответов и должен быть полезен независимо от того, хотите ли вы устроиться на работу в аналитике или просто хотите расширить свой набор навыков.

Что вас заинтересовало в анализе данных и как вы получили свою первую работу?

Моя первая работа вне школы была в закупке цифровых медиа - у нас были аналитики, которые нас поддерживали, и мы также работали с инструментами, основанными на алгоритмах и аналитике. Мне всегда нравилась эта часть работы (анализ и использование инструментов данных) гораздо больше, чем сама дисциплина закупки средств массовой информации. Вот где я изначально заинтересовался. Я смог использовать часть своего опыта работы с цифровыми медиа, а также ограниченное обучение, которое я прошел во время (не связанной) магистерской программы (и несколько хороших собеседований), чтобы попасть в программу развития лидерства в консалтинговой фирме, полностью ориентированной на аналитику больших данных ( Clarity Insights ).

Что мне изучать в школе, если я хочу заниматься аналитикой?

В отрасли существуют твердые мнения об этом в отрасли, но я считаю, что не имеет значения, какая у вас степень, а важны навыки и знания, которые вы приобретаете во время учебы. Я лично окончил латиноамериканские исследования и имею степень магистра международных отношений, которые никак не связаны с аналитикой данных. Однако, пока я получал степень магистра, я смог пройти перекрестное обучение по программе бизнес-аналитики моей школы, где я взял базовые классы по SQL, проектированию баз данных и прогнозному моделированию. В моей программе международного обучения также были довольно жесткие требования к статистике, что тоже было очень полезно.

Если вы твердо уверены, что хотите выбрать конкретную программу получения степени, то степень в области информационных систем или статистики потенциально может дать вам возможность получить работу аналитика или изучить набор навыков анализа данных (что означает меньше времени, затрачиваемого на изучение вещей. себя). Многие школы в настоящее время также предлагают актуальные программы по науке о данных / аналитике (однако сделайте себе одолжение и внимательно прочтите требования курса - некоторые из этих программ либо «пушистые», что означает, что они недостаточно углубляются в какую-либо одну тему, чтобы быть полезными - или некоторые из них разработаны с большим углом зрения информатики - что может быть чрезвычайно важно для некоторых аналитических ролей, но не обязательно или хорошо подходит для всех людей и может обескураживать).

  • Обратите внимание: хотя я лично не считаю, что вам нужна техническая степень, чтобы быть хорошим или даже отличным специалистом по анализу данных / аналитике, существует множество компаний, отделов кадров и профессионалов, которые даже не посмотрят на вас без технической степени. Я лично считаю, что это недальновидный подход к найму, но, тем не менее, такое отношение существует.

Какие основные навыки вы использовали в своей аналитической работе или которые должен знать аналитик данных?

Лучшее, что нужно изучить вначале, связано с ETL и очисткой данных - что может быть супер-скучным, трудоемким и однообразным - но (по моему опыту) составляет около 80% проблем, с которыми сталкиваются предприятия. Это мой список предметов первой необходимости, и где я могу их изучить:

Моделирование данных и SQL - как можно больше SQL. Это может быть сложно без фактического набора данных, с которым нужно работать, и конкретных вопросов, на которые вы отвечаете. Это, вероятно, лучше всего сделать с помощью бесплатного онлайн-курса на Coursera, Datacamp или другом (я рекомендую Datacamp). Очень важно понимать, как работают базы данных: объединение, нормализация данных и способность думать о том, как базы данных должны оптимально запрашиваться и работать в соответствии с конкретным бизнесом или наборами данных, с которыми вы работаете.

ETL - очистка, преобразование и загрузка данных из одного источника в другой: в Clarity мы научились этому с помощью инструментов перетаскивания, но использование чего-то вроде Python позволит вам намного дальше. Мой совет - научиться получать данные из API и помещать их в таблицу в CSV или Google Sheets (оттуда вы можете узнать, как поместить их в базу данных и т. Д.). Вы можете найти массу ресурсов о том, как это сделать (просто погуглите - я знаю, что это отговорка, но это правда). Это чрезвычайно полезный навык, который впечатляет в резюме. В качестве альтернативы Python вы также можете узнать, как использовать такой инструмент, как Xplenty или Funnel.io - это инструменты перетаскивания для перемещения данных из множества API-интерфейсов в любой источник данных, который вы хотите.

Базовый статистический анализ. базовая вероятность и т. д. Когда вы представляете и разрабатываете идеи, вы чаще всего будете представлять их деловым людям или маркетологам, которые хотят, чтобы вещи были простыми и легко усваиваемыми - что означает использование практических концепций, которые они могут понять. DataCamp - отличное место, где можно самостоятельно изучить базовые навыки работы со статистикой.

Excel. Сводные таблицы и основные функции (сумма произведений, vlookup, hlookup, соответствие индексов) вам в помощь. Я использую Python, R, SQL, Hadoop и несколько других инструментов, но по сей день большую часть своего базового исследовательского анализа я выполняю в Excel. Изучение быстрого и грязного анализа сводных таблиц и построения диаграмм в Excel по-прежнему является самым быстрым способом получить понимание или быстро извлечь уроки из ваших данных. Лучший способ изучить таблицы excel / pivot - спросить кого-нибудь (или на YouTube) - как только вы получите базовое представление, вы сможете узнать остальное через Googling.

Серверные среды / файловые структуры Linux / Unix. Научитесь использовать Linux для чтения данных, загрузки данных, сохранения и перемещения файлов, запуска cronjobs, сценариев bash и т. Д.

Обладая указанными выше навыками даже на полу-базовом уровне, вы будете хорошо настроены на роль аналитика начального уровня и, вероятно, опередите игру для многих младших должностей. Вы также были бы настоящим «гением данных» в неаналитическом броске, если бы вы могли совмещать вышеупомянутые навыки с любой нетехнической ролью, в которой вы работаете.

Какой язык программирования вы считаете наиболее полезным или распространенным?

Используйте то, что вам удобно вначале. Что-то вроде Python, использующего дистрибутив Anaconda (Google «Python Anaconda»), отлично подходит для начала экспериментов с машинным обучением, моделированием, анализом данных и т. Д., Но если вам нравится R или вы находите его более интуитивно понятным, это тоже хорошо. Ключевое отличие заключается в следующем: Python будет более полезен в рабочих условиях - если вы собираетесь загружать модель в производственный код (для продукта, услуги или api), то вы, вероятно, в конечном итоге будете использовать python для ' ввести модель в действие в какой-то момент. Однако R лучше подходит для быстрого и простого статистического анализа и моделирования, поскольку он создан именно для этого, тогда как python - надежный язык программирования.

Если вы испытываете стресс из-за того, что выбираете «один» - тогда сосредоточьтесь на Python - вам, вообще говоря, лучше будет опираться на Python.

Если вы не заинтересованы в том, чтобы заниматься аналитикой, и просто хотите улучшить анализ данных, придерживайтесь R или хорошо разбирайтесь в Excel.

Существуют ли какие-либо онлайн-курсы, которые, как вы видели, люди используют для получения работы по анализу данных?

Нет ничего, что могло бы «получить работу», хотя они, безусловно, помогут вам приобрести навыки, необходимые для получения работы, которую вы хотите. Я слышал, что нано-дипломы Udacity возместят ваши расходы, если вы не получите работу, но я не знаю никого, кто проходил бы этот набор курсов. В целом, я рекомендую Data Camp как универсальный центр для изучения всего, что связано с Python, R, SQL. На мой взгляд, это немного дороговато, но их платформа - одна из лучших, с которыми я когда-либо сталкивался, и у них есть действительно хорошие практические примеры и тематические исследования, с которыми вы можете работать, а также отличный интерактивный интерфейс.

Если вы хотите углубиться в машинное обучение (написание алгоритмов на Python с нуля) - я рекомендую Coursera Machine Learning: A Case Study Approach (Вашингтонский университет) - действительно хороший курс, очень технический подход к пониманию базовой машины обучающие модели.

Если у вас есть время, ввод и фактическая отправка результатов для соревнований Kaggle - отличный способ развить свой набор навыков в области науки о данных и аналитики. Многие из наиболее эффективных специалистов по обработке данных на Kaggle публикуют свои скрипты R и Python публично, чтобы вы могли учиться, копируя и анализируя их работу. После того, как вы пройдете несколько базовых курсов (в Kaggle есть некоторые базовые наборы данных, с которыми вы можете работать), начинайте работать над проблемами Kaggle - это отличный способ быстро учиться.

Есть ли смысл получать онлайн-мастера с фокусом на данных?

Если вы хотите кардинально изменить свою карьеру в Аналитике из чего-то другого, или у вас нет большого опыта, который можно было бы использовать специально в аналитике, чтобы попасть в аналитическую роль, или если вас называют «экспертом по аналитике», тогда да. По всей стране появляется множество программ «Masters in Data Science». Получение степени магистра Data Science в известном университете может иметь большое значение, чтобы помочь вам найти работу или получить учетные данные, которые будут прикреплены к вашей должности. Тем не менее, делайте это только через известный, названный университет - например, Беркли, Северо-Западный, Стэнфорд, Корнелл и т. Д.

Другой вариант, если вы не хотите проходить магистерскую программу и уверены, что сможете получить навыки самостоятельно, - это начать усердно участвовать в соревнованиях Kaggle (как упоминалось выше). Если вам удастся занять первые места в нескольких соревнованиях Kaggle, этого может быть достаточно, чтобы получить действительно хорошую работу в области аналитики, поскольку это доказательство того, что вы действительно разбираетесь в машинном обучении. Тем не менее, не все аналитики ориентированы на машинное обучение, поэтому все зависит от того, в каком направлении вы хотите двигаться.

Что еще мне нужно знать об аналитике данных и науке о данных?

· Вопреки широко распространенному мнению, машинное обучение - не серебряная пуля: оно не решит все проблемы и не является правильным подходом к решению всех проблем (см. Эту фантастическую статью из Harvard Business Review, чтобы получить некоторые мысли по этому поводу от главы Facebook AI: https://hbr.org/2017/07/inside-facebooks-ai-workshop)

· Аналитика - это все о бизнес-результатах - если у компании есть проблема и она не может решить ее логическим путем, использование алгоритма машинного обучения или статистики не поможет волшебным образом выявить новое решение (и если оно делает, это решение, скорее всего, неверно).

· Лучше предоставить 80% решение очень и очень быстро, чем предоставить 100% решение, где последние 20% занимают 90% времени. Сосредоточьтесь на быстрых, точных результатах и ​​быстром принятии решений - ваша способность быстро завершать аналитические проекты, которые дают результаты, намного важнее, чем улучшение вашего алгоритма на несколько процентных пунктов.

Я мог бы поделиться множеством других вопросов, которые я задавал выше - если вы хотите поболтать больше, просто напишите мне на адрес [email protected]