Предупреждения для моего прошлого

Когда дело доходит до передового опыта и согласования бизнеса, большинство новых инженеров по данным учатся на ходу.

От создания чрезмерно сложных и неустойчивых систем до чрезмерного доверия к существующим структурам данных - вот пять наиболее распространенных ошибок и ловушек, в которые могут попасть даже самые опытные и талантливые инженеры-новички. Я также включил то, что вы можете сделать, чтобы избежать тех же ошибок.

Распространенные ошибки, которые сбивают с толку новых специалистов по обработке данных

По самой своей природе массивные наборы данных неточны, и инженерам данных очень легко потерять из виду лес за деревьями. Общей темой среди новых инженеров по обработке данных являются высокотехнологичные системы, которые сложно поддерживать в долгосрочной перспективе и которые не учитывают конечных пользователей и общие бизнес-цели.

1. Создание необслуживаемых систем

Многие новые инженеры по обработке данных создают программы, которые могут работать нормально и обеспечивать определенный конечный результат в краткосрочной перспективе, но они разваливаются или слишком сложны для поддержки в долгосрочной перспективе. Системы ETL и хранилища данных, которые слишком зависят от сложного кода и не могут управляться без первоначального вклада инженера по данным, неустойчивы и в конечном итоге неэффективны.

Новым инженерам по обработке данных необходимо выходить за рамки непосредственной задачи и подходить к проектам разработки с четким планом будущего развития, которое будет продолжать работать и развиваться в будущем.

2. Предполагая, что данные точны

В идеальном мире данные были бы точными и актуальными, готовыми к подключению и творить чудеса. К сожалению, обычно это не так. Новые инженеры по обработке данных могут чрезмерно полагаться на точность и «чистоту» своих наборов данных.

Особенно прямо из исходных систем.

Как показывает опыт, всегда полезно предположить, что даже в «чистых» данных есть некоторые неточные точки данных (например, неверно сформированная дата или ссылка на несуществующее сокращение штата).

Крайне важно внедрять методы гигиены данных на постоянной основе, чтобы убедиться, что вы работаете с наиболее точной информацией. Ознакомьтесь с этим списком простых лучших практик по очистке данных, которые следует помнить для каждого проекта:

  • Создайте план качества данных.
  • Стандартизируйте контактные данные при входе.
  • Проверьте данные на точность.

3. Создание излишне сложной логики в одном устройстве.

Это связано с первой ошибкой и относится к хранилищам данных и системам, которые слишком сложны и перегружены, чтобы выжить без постоянного участия их разработчика. Ярким примером является настройка слишком большого количества шагов в одном запросе. Подумайте о каждом шаге, действительно ли он необходим для каждого запроса, упрощает ли он использование системы или просто усложняет ее работу и делает ее слишком сложной в обслуживании.

Подумайте заранее, когда будете строить, и подумайте, будет ли система достаточно интуитивно понятной, чтобы ее мог понять и поддерживать кто-то другой.

4. Не спрашивать, зачем они что-то строят.

Это шаг, на котором инженерам по данным необходимо согласовать и синхронизироваться с бизнес-целями проекта и целями организации. Сами данные могут быть высечены в камне, но без четкого представления о том, как они должны объединяться и какова общая цель, новые инженеры по данным могут потерять из виду намеченную цель того, что они пытаются создать.

Знание предполагаемого воздействия каждого проекта на бизнес позволяет упростить расстановку приоритетов при очистке и структурировании данных. Что с этим будет делать конечный пользователь? Инженеры по обработке данных должны понимать бизнес-кейсы, чтобы понимать, что им следует создавать.

5. Не думать о конечном пользователе.

Даже если новому инженеру удастся обойти все остальные ошибки и подводные камни, игнорирование конечного пользователя станет критической ошибкой, которая может погубить весь проект. Даже самая технически продвинутая система хороша ровно настолько, насколько она полезна для конечного пользователя, поэтому их потребности всегда должны быть в центре внимания на протяжении всего процесса разработки.

  • Удобны ли ваши структуры данных?
  • Хорошо ли разбирается в SQL конечный пользователь?
  • Какие инструменты и программы есть в их распоряжении?
  • Каковы их общие возможности?
  • Понимают ли они модели данных?

Это лишь некоторые из основных вопросов, которые следует учитывать новым инженерам по данным при работе над проектом.

Лучшие практики для новых инженеров по обработке данных

Совершать ошибки (и учиться на них) свойственно любой профессии, но внедрение нескольких передовых практик на раннем этапе может сэкономить новым инженерам по данным много времени и усилий в краткосрочной и долгосрочной перспективе.

Делайте ваши функции простыми

Разработка простых функций, ориентированных на одну задачу, упрощает выявление ошибок, их быстрое возвращение и корректировку курса. По данным инженера Анны Анисени:

«Чтобы функции можно было использовать повторно, рекомендуется писать их таким образом, чтобы они выполняли одно действие. У вас всегда может быть основная функция, которая может связывать воедино разные части. В целом, я обнаружил, что, делая функции небольшими (т. Е. Сосредотачиваясь на том, чтобы делать что-то хорошо), я стремлюсь разрабатывать код быстрее, поскольку отказ одного элемента может быть легче идентифицирован и исправлен. Меньшие функции также упрощают замену отдельных компонентов и их использование в качестве кубиков Lego, которые можно комбинировать для различных вариантов использования ».

Меньше - больше

Наилучший способ заставить его работать - писать меньше кода и делать его максимально простым и понятным. Другим также легко управлять, когда вы больше не участвуете в этом.

Подумайте, как вы читаете код. Это кратко и легко? У него правильное название и правильная структура? Скажите это как можно меньшим количеством строк кода, потому что чем меньше кода вы напишете, тем меньше придется поддерживать.

Используйте правильные соглашения об именах

Самый простой и самый эффективный способ сделать код легким для чтения и сопровождения - это быть как можно более ясным и подробным при именовании функций кода. Стремитесь сделать свой код самодокументированным, чтобы его функция была до боли очевидна. Это значительно упростит жизнь (и работу) каждому.

Помните, что в данных, как и в жизни, простое обычно лучше, чем сложное.

Как мне стать инженером по обработке данных?

Карьера инженера данных пользуется большим спросом, поэтому сейчас самое лучшее время, чтобы стать инженером по данным. Согласно PayScale, средняя годовая базовая зарплата инженера по обработке данных в США может превышать 100 тысяч долларов.

Есть несколько путей, по которым вы можете стать инженером по обработке данных, и вам не обязательно возвращаться в колледж или инвестировать в дорогостоящую ученую степень, чтобы продолжить карьеру в области инженерии данных.

Чтобы стать инженером по данным, вам нужно быть опытным программистом (Python - стандартная точка входа). Инженерам данных также необходимо изучить автоматизацию, создание сценариев и моделирование баз данных (лучше всего начать с SQL). Вы можете узнать все, что вам нужно, чтобы стать инженером по данным в традиционной академической программе, на учебном курсе или даже выбрать курс самообучения, чтобы начать изучение основ.