Введение

В течение долгого времени необходимым набором навыков для анализа данных традиционно было хорошее понимание статистических теорий, концепций и теории вероятностей и их приложений. Так было со статистиками еще до того, как Питер Наур ввел термин Data Science примерно в 1974 году.

Однако сегодня последний чувствует себя доминирующим в области анализа данных и, кажется, вытесняет традиционалистских статистиков с дороги. Должно ли это быть так? Находится ли область статистики под угрозой со стороны профессии Data Science? Специалисты по данным лучше статистиков? Как мы можем найти компромисс между этими различными наборами навыков и работать в гармонии, стремясь к одинаковому аналитическому признанию качества продукции?

Что ж, я не буду возвращаться к прошлым дебатам по этим двум основным областям, но основой науки о данных является статистика, за исключением того, что последняя рассматривает большие данные с точки зрения объема и анализа других нетрадиционных данных, например, изображений, видео с использованием изощренные техники. Короче говоря, специалист по данным не может выполнять свою работу без знания статистики, а статистикам необходимо овладеть навыками обработки данных и добавить их в свой список навыков в 21 веке. Я где-то читал, что Джефф Ву использовал термин Наука о данныхв качестве альтернативного названия для Статистикав 1985 году. Следовательно, , это обеспечивает поддержку аргументов, которые я поднимаю в этой статье.

По профессии я экономист, и большую часть своей жизни применяю статистические навыки. Моя степень была в области экономического развития, и с первого года я начал изучать статистику с нуля до четвертого курса. В те дни единственными инструментами, доступными для использования статистического анализа, были STATA, Electronic Views (E-Views) и другие. Во время моей магистерской программы в Кентском университете я также освоил эконометрику, которая на 90% была статистическим приложением. В университете не предлагались пакеты по науке о данных, и этот термин так и не был реализован.

Короче говоря, в 2011 году я самоучил науку о данных и использовал уценку R для написания своей диссертации. Это было началом моего интереса к области Data Science, и сегодня я знаю около 80% этой области и счастлив.

Обзор науки о данных

В области науки о данных ВСЕ учреждения, предлагающие курсы по науке о данных, четко определяют три краеугольных камня науки о данных как наличие знаний в предметной области в

· Математика-статистика,

· Деловые знания

· Навыки кодирования (взлома)

как показано на диаграмме Венна ниже.

Эти области могут быть известны под разными техническими терминами, но относиться к одним и тем же вещам. Овладение тремя областями приблизит вас к профессии Data Science.

Аргументы для статистиков:

Небольшой расчет: если знание трех вышеприведенных областей соответствует 100 % диаграммы Венна по науке о данных, это означает, что статистикам нужно изучить только 33 % диаграммы, чтобы стать учеными по данным, поскольку они уже выполнили статистику и Бизнес-домены в их текущей работе. Остается, чтобы статистики отошли от традиционного статистического программного обеспечения, используемого для использования языков программирования для науки о данных. По сравнению с кем-то новичком в области науки о данных потребуется 100% обучения, чтобы стать специалистом по данным (говорят, что некоторые в течение 6 месяцев!).

Так почему же статистики не переходят к области науки о данных, когда они уже достигли 66,6% необходимых навыков? Давайте разобьем приведенную выше диаграмму Венна, чтобы понять, где находятся статистики.

  1. Статистики уже обладают знаниями в области бизнеса и статистики, что делает их аналитиками данных.

2. Пересечение статистики и кодирования соответствует машинному обучению. Это означает, что статистики должны получить новые вычислительные навыки в дополнение к своим традиционным знаниям в области статистического программного обеспечения (пробел необходимо заполнить).

3. Пересечение между статистикой, бизнесом и программированием соответствует науке о данных. Это последний киоск. Приобретение знаний в области кодирования (также известных как навыки взлома) и применение их в своем бизнесе заставит статистиков войти в мир науки о данных.

Единственная проблема, с которой сталкивается статистик, заключается в отказе от использования традиционных программных пакетов и переходе на языки программирования 21 века, такие как R и Python.

Вышеизложенное ясно показывает, что наука о данных — это применение статистики и хакерских навыков в сфере бизнеса. Таким образом, приобретение навыков кодирования приблизит статистиков к профессии Data Science с практикой, в которой вы применяете полученные навыки.

Новое начало для статистиков

Мы определили пробел в навыках кодирования, которыми должны овладеть статистики. Зависимость от проприетарного программного обеспечения может уйти в прошлое. Использование новых бесплатных языков программирования с открытым исходным кодом — лучший способ освоить навыки программирования. Угадайте, что — Решения, принимаемые в науке о данных, основаны на использовании статистических инструментов, которые, я уверен, статистики легко используют в своих приложениях. Единственное дополнительное требование заключается в том, как интегрировать эти навыки в исследования машинного обучения. Вот три шага:

Во-первых, я рекомендую начинающим специалистам по данным использовать эту книгу: Введение в статистическое обучение: с приложениями в R. Книга учит, как применять статистику с помощью языка программирования R. Я использовал эту книгу на этапе обучения, и она является наиболее рекомендуемой книгой для тех, кто хочет освоить статистические приложения для науки о данных, в частности машинное обучение с R.

Во-вторых, чтобы углубить свои навыки работы с данными, создайте портфолио проектов, в которых вы применяете языки программирования для получения информации из данных. Начните с простого и расширяйте свое поле со временем. Используя существующие проекты на работе, попробуйте обрабатывать те же данные в R или Python, проводить исследовательский анализ данных, создавать диаграммы и обращаться за помощью к профессиональным специалистам по данным на своем рабочем месте, и не стесняйтесь обращаться к ним. Если у вас ограниченный бюджет, воспользуйтесь онлайн-курсами, предоставляемыми Udemy, Coursera, Data Camp и другими — ваша цель не должна состоять в том, чтобы получать сертификаты «всегда», а скорее в том, чтобы сконцентрироваться на приобретении новых соответствующих навыков. образованный. Постоянная практика – это правильный путь.

В-третьих, существует множество путей для изучения навыков программирования, наиболее распространенными из которых являются:

Статистики, вы хорошо разбираетесь в статистической теории и в течение многих лет применяли свою деловую хватку и статистику при принятии деловых решений. Есть только одна область знаний, которую вам нужно расширить, и это кодирование, как обсуждалось выше. Честно говоря, вам не нужно изучать сложные концепции, такие как искусственный интеллект и некоторые сложные концепции машинного обучения, которые вы никогда не будете применять в своей работе (если вы уже работаете).

Вдохновляющее задание. Посмотрите внимательно на приведенную ниже диаграмму Венна, попробуйте воссоздать диаграмму в PowerPoint с именами в середине каждого круга и переместите круги так, чтобы каждое доменное имя пересекало какие-либо линии. Что ты видишь? Какой раздел самый маленький? Вот как легко получить значок навыка Data Science. Вы уже обладаете навыками, чтобы стать специалистом по данным!

Заключение

Помните, что вы можете стать специалистом по данным, используя только один язык программирования, такой как R или Python (я говорю о barebone-приложениях, но есть и тяжелое программное обеспечение, такое как Hadoop и т. д.). Не заставляйте себя изучать и R, и Python, так как со знанием одного из языков позже легко перейти на другой. Это как план поехать в Лондон из Ньюпорта: либо ехать, либо поездом, либо лететь, либо идти пешком! Это твой выбор. Начинайте с малого, совершайте ошибки, учитесь на них и совершенствуйтесь. Это правильный путь.

К 2025 году все статистики должны стать специалистами по данным.