Взрыв в науке о данных создал и переопределил несколько профессий. Наука о данных и машинное обучение — относительно новые профессии в прикладной сфере. Круг кандидатов на должности в области науки о данных расширился и теперь включает специалистов по информатике, математиков и физиков, а также выпускников бизнес-школ, экономистов и других социологов. В этом пространстве процветает путаница ролей.

В настоящее время в области науки о данных есть три должности высшего уровня: специалист по данным, инженер по машинному обучению и инженер по данным.

Специалист по данным

Самая известная из этих ролей — специалист по данным. Роль специалиста по данным имеет академическое происхождение; таким образом, многие специалисты по данным обладают солидными математическими и статистическими навыками, и многие из них будут иметь ученую степень. У них есть деловая хватка и аналитические способности, а также способность анализировать, очищать и представлять данные.

Ученый по данным: самая сексуальная профессия 21 века — Harvard Business Review

Однако они часто слабы во многих реальных навыках, таких как поиск данных и программирование. Я считаю, что эта слабость приведет к резкому сокращению роли науки о данных в прикладной сфере.

Инженер по машинному обучению

Вторая роль — инженер по машинному обучению. Инженеры по машинному обучению используют языки программирования для работы в процессе машинного обучения. Языком по умолчанию для работы с данными в прикладном пространстве является SQL, и это часто является одним из главных навыков, которые компании ищут в своих инженерах по машинному обучению.

Инженеры по машинному обучению создают модели, которые делают прогнозы. В прикладной сфере часто используются два языка программирования: Python и R.Инженеры машинного обучения часто несут ответственность за производительность, оптимизацию и помощь в развертывании окончательной модели в рабочей среде. Слабостью инженера по машинному обучению часто являются статистика и математика.

Инженер данных

Инженеры данных управляют большими объемами изменяющихся данных в различных форматах. У большинства компаний есть структурированные данные, например данные, размещенные в реляционных базах данных, и неструктурированные данные, например текстовые файлы, хранящиеся в файловой системе. Инженер данных занимается разработкой, развертыванием, управлением и оптимизацией конвейеров данных и инфраструктуры.

Инженеры данных заботятся о готовности данных к производству и обо всем, что с ними связано: форматах, масштабировании, отказоустойчивости и безопасности. С точки зрения навыков инженеры данных должны быть знакомы с операционными системами, SQL, технологиями больших данных, системами хранения и инструментами приема данных. Они часто являются распорядителями данных компании.

Аналитик данных

В прикладной области аналитик данных — это тот, кто использует SQL или другие сторонние инструменты для создания отчетов. Часто эта роль не связана с информационными технологиями.

Объем технических навыков, необходимых для работы аналитиком данных, отличается от тех, которые требуются для науки о данных, машинного обучения или обработки данных. Однако роль аналитика данных предоставляет вам SQL навыки, которые вам потребуются, чтобы начать свое путешествие в области информационных технологий. Самым сложным для многих новичков в машинном обучении будет обеспечение своей первой должности в сфере ИТ. Инженеры по машинному обучению и инженеры по данным — это высокотехнологичные роли, требующие обширного набора знаний и навыков.

Обязательно задайте несколько вопросов, связанных с этим, если они у вас есть. Вы также можете связаться со мной в Linkedin или посетить мой блог Computer Science Hub.