3 урока гармонии науки о данных

МОЙ СОВЕТ СОБЫТИЯМ КОЛЛЕГАМ И ЮНИОРАМ ПО НАУЧНЫМ ДАННЫМ

Уроки пианиста, чтобы стать великим специалистом по анализу данных

3 урока о том, почему Data Science похожа на игру на пианино

Диаграмма Венна, полученная в результате чрезмерного использования данных ученого

Это типичная часто используемая диаграмма, которую вы всегда видите во введении в науку о данных. На этой диаграмме мы видим 3 различных области: навыки информатики, статистические навыки и знания в предметной области.

Затем, в самый центр всего этого, мы помещаем престижных специалистов по данным, которые, как мне кажется, сейчас стали слишком популярными, и которыми стартапы широко злоупотребляют для привлечения талантов. Хотя эта диаграмма Венна является хорошим введением в науку о данных, ей не хватает критического мышления в отношении ценностного предложения.

Как и любой другой бизнес, которому необходимо разработать свою бизнес-модель для инвестиций компаний. Без добавленной стоимости, необходимой вашим клиентам, вы не сможете объяснить реальную работу Data science. Вот несколько проблем с типичной диаграммой Венна Data Science.

Это не объясняет основную цель Data Science. Для кого мы проводим анализ? Как мы узнаем, добьемся ли мы успеха?
Не побуждает к действиям. Хорошо .. как мне начать?
Он не выделяет среду при работе с разными командами. Data Science - всегда командное достижение.

В этом случае я хочу провести аналогию, которая даст вам больше информации о том, что нужно, чтобы стать великим ученым в области данных.

По учебе у пианиста.

Однажды я поддержал своего хорошего друга, который является прекрасным пианистом. После фортепианного концерта я его поздравил. Мы болтали некоторое время, пока он не спросил меня: «Чем занимается специалист по данным?» Я задумался и придумал метафору для объяснения. А теперь я хотел бы поделиться с вами.

Я надеюсь, что это понимание поможет вам понять основной образ мышления специалистов по данным как профессий.

Аудитория: Вы играете на пианино корове?

В период Сражающихся царств был музыкант по имени Гунмин И, который хорошо играл на музыкальных инструментах. Было очень много людей, которые любили слушать его игру и очень его уважали.

Однажды Гунмин И увидел корову, когда отдыхал в сельской местности. Он подумал: «Все хвалят мою музыку. Почему бы мне не поставить музыку для этой коровы? "

Он сыграл корове отрывок изящной причудливой музыки, но корова продолжала пасти траву, опустив голову. Он сыграл еще один отрывок веселой музыки, но корова все еще держала голову опущенной, чтобы пастись на траве, и полностью игнорировала его. Гунмин И продемонстрировал все свои навыки, но корова по-прежнему игнорировала его.

Затем он настраивает свою игру, чтобы имитировать звук теленка. И корова реагирует.

- Китайские народные сказки (дуи ню тан цинь) -

Это простой и отличный урок. Каким бы сложным ни было ваше решение. У вас не будет результатов, если ваши заинтересованные стороны / аудитория не поймут. Ключевым результатом для науки о данных является принятие решений на основе данных. Для этого вам потребуется одобрение и поддержка основных заинтересованных сторон.

Сюда входят пользователи вашего приложения, пользователи вашего приложения машинного обучения и даже инженеры, поддерживающие запуск вашего приложения. Вы не должны слишком много думать и должны разрабатывать простые решения, которые нацелены на объяснение, а не на сложность.

Например, если проект небольшой, и ваши заинтересованные стороны требуют подтверждения концепции для определения его непрерывности, не делайте ставки на глубокое обучение как на первую ставку. Вместо этого разберитесь в проблеме, в данных и создайте интерактивную панель мониторинга для извлечения информации.

Делайте то, что полезно и достаточно для ваших заинтересованных сторон, а не для вашего эго.

Точно так же для меня, когда я получаю новый проект, я всегда выделяю минимально жизнеспособный продукт (MVP) и начинаю заниматься сложным машинным обучением / глубоким обучением, когда у меня есть заинтересованные стороны.

Это означает, что я бы начал с исследовательского анализа. Я классифицировал результаты с помощью правил, основанных на порогах (например, дерево решений), чтобы произвести 80% воздействий. Всегда пытайтесь сравнить 20/80 Парето, чтобы убедиться, что вы движетесь в правильном направлении.

Если вы проигнорируете это, вы понесете огромные расходы для заинтересованных сторон и не обязательно окажете влияние, которое вы обещаете в своем решении. « Netflix никогда не использовал свой алгоритм стоимостью 1 миллион долларов из-за инженерных затрат ». Это может быть ваш следующий заголовок.

Поймите, для кого вы играете свою музыку, это ключ к тому, чтобы стать великим специалистом по данным.

Дисциплина: Вы изучаете фортепиано с табулатой фортепиано?

Могу ли я изучать науку о данных, не зная статистики?

Могу ли я реализовать глубокое обучение и называть себя специалистом по данным?

Простой ответ… МОЖНО.

Вы можете провести регресс, не зная, как работает регресс. Вы можете заговорить и понять это. Вы даже можете следовать руководству Keras, чтобы быстро внедрить глубокое обучение для соревнований Kaggle.

В конце концов, разве не так нас учит в школе? Формочка для печенья и производство результата?

Представьте себе вкладку фортепиано

Вы играете «Зимнюю сонату». С помощью табулатуры пианино вы можете произвести впечатление на свою девушку, следуя по клавишам тому, что вам дает автор. Вам даже не нужно читать ноты.

Но вы отличный музыкант?

НЕТ. Конечно, вы можете играть музыку, но вы не станете великим пианистом. Табы для фортепиано - это тренировочные колеса. Вы никогда не услышите профессионального велосипедиста, который тренируется с тренировочным колесом.

Вы можете тренироваться и играть любую песню, какую захотите. Но ваше понимание будет поверхностным, если вы не умеете читать ноты. Если вы не разбираетесь в нотах, вы никогда не аранжируете собственное произведение.

Точно так же великий специалист по обработке данных с большими усилиями и деталями проработает и оттачит свои навыки в этих вопросах:

Ваша аудитория: для кого вы играете?
Ваш кусок: что изнутри из модели / анализа машинного обучения?
Ваш инструмент: как вы выполняете качественную работу с имеющимися ресурсами?

Точно так же, можете ли вы стать великим специалистом по данным без статистики?

Работа в команде: гармония формы нот

Сможете ли вы стать специалистом по данным, работая над проектом самостоятельно?

Data Science - это всегда командная работа. В хоре есть ансамбль сопрано, тенора, альта и баса. Каждый не может стоять сам по себе, но вместе они создают гармонию.

Точно так же в Data Science вы найдете инженеров, которые запускают вашу Proof Of Concept, менеджера по продукту, который изучает ваш анализ и принимает решения, и даже других специалистов по данным, которые имеют другой опыт.

Как специалисты по обработке данных, мы не можем стоять в одиночестве. Мы можем построить инфраструктуру и модель. Но мы потерпим неудачу, если не будем уважать и синхронизировать нашу работу.

Точно так же для меня меня всегда радует то, что меня всегда окружают коллеги, которые знают больше меня. У них есть разные специальности (Yara / Yodalog / ML Ops), которые помогают мне, когда я отправляюсь в неизвестность. Мы синхронизируем нашу работу через запуск новых продуктов.

Подобно тому, как тона образуют гармонию, синхронизированные произведения создают впечатления.

Вывод

Таким образом, обучаясь у пианиста. вы узнали больше о перспективах того, чтобы стать великим специалистом по данным:

Аудитория: хорошо знайте свою аудиторию, прежде чем начинать каждый проект по работе с данными. Получите их бай-ины, и вы не потратите зря свои усилия.
Дисциплина: усердно совершенствуйте свои навыки. Поймите, что вам нужно отличное сочетание навыков вашей аудитории, произведения и инструмента.
Работа в команде. Поймите, как вы можете построить свои межличностные отношения и организовать свой проект для достижения гармонии / воздействия.

Соли Део Глория

об авторе

Винсент борется со злоупотреблениями в Интернете с помощью ML @ Google. Винсент использует передовую аналитику данных, машинное обучение и разработку программного обеспечения для защиты пользователей Chrome и Gmail.

Помимо работы в Google, Винсент также является ведущим автором журнала Towards Data Science Medium, который направляет начинающих практиков машинного обучения и обработки данных с более чем 500 тысячами зрителей по всему миру.

В свободное время Винсент учится на степень магистра ML в Технологическом институте Джорджии и готовится к триатлону / велосипедным поездкам.

Наконец, свяжитесь с Винсентом через LinkedIn, Medium или Youtube Channel.