В этой статье я быстро рассмотрю ключевые термины и покажу, как они связаны с тем, что вы будете делать как специалист по данным.

Важным моментом, о котором следует помнить, является разница между теоретическими и прикладными понятиями. Вы часто будете слышать параллели между информатикой и программированием, а также машинным обучением и наукой о данных. Хороший способ запомнить разницу состоит в том, что если вам нужен компьютер, чтобы увидеть, как он работает, это программирование и наука о данных, однако, если вы можете сделать это с помощью карандаша и бумаги, это информатика и машинное обучение.

Информатика сама по себе является строго математической наукой — термин «вычислительная математика» был бы более подходящим. Он включает в себя изучение теории графов, алгоритмической сложности, формальной логики, автоматов и вообще любой логической структуры, которая может описывать преобразование или реакцию на ввод — алгоритмы. Компьютерный ученый в классическом смысле может рассуждать о правилах, которые управляют любой вычислительной системой (включая современные компьютеры), не обязательно зная детали реализации на текущей архитектуре. Сильный опыт в области компьютерных наук дает вам возможность разрабатывать (или вспоминать) эффективные, масштабируемые алгоритмы, предвидеть логические сокращения и здраво рассуждать о том, что поддается обработке.

Напротив, программирование — это то, что делает человек, когда использует язык программирования для преобразования алгоритма в то, что может сделать машина. (Это должно сделать очевидной тесную связь с компьютерными науками и понять, откуда берется большая часть путаницы.) Программист (по отношению к среде и языку) должен быть в состоянии взять практически любой набор алгоритмов и преобразовать их в форму, как человеческую, так и человеческую. - и машиночитаемым путем написания кода. Сильный опыт в программировании (который предоставляется на большинстве степеней CS) позволяет вам писать более качественный код — где «лучший» код легче понять другим и более успешно выразить алгоритм, который вы реализуете.

Машинное обучение — это набор методов, направленных на то, чтобы программа выполняла задачу лучше по некоторому показателю по мере того, как программа набирала больше опыта. Механизм рекомендаций Amazon является примером системы машинного обучения. Программа является рекомендательным движком. Задача состоит в том, чтобы дать вам рекомендации о вещах, которые вы, вероятно, купите. Допустим, метрика — это количество рекомендованных покупок, которые вы сделали, по сравнению с количеством рекомендаций, отправленных вам системой. Механизм рекомендаций получает опыт от мониторинга того, что вы просматриваете и что покупаете. Машинное обучение имеет три отдельные области, которые полностью его описывают: обучение с учителем, обучение без учителя и обучение с подкреплением.

Теоретическое машинное обучение включает в себя изучение и исследование новых алгоритмов. Прикладное машинное обучение включает в себя создание продуктов данных или использование алгоритмов в конвейерах обработки данных.

Наука о данных — это процесс получения, преобразования, анализа и передачи данных для ответа на вопрос. Визуальное изображение внизу изображает это как линейный процесс. В реальности все гораздо грязнее. Любой будущий шаг может повлиять на какой-то предыдущий шаг. Любой предыдущий шаг может повлиять на какой-то шаг в будущем. Вы будете постоянно дорабатывать и корректировать элементы своего пайплайна.

Машинное обучение – это тип анализа, который вы можете выполнять в рамках науки о данных. Иными словами, машинное обучение не является необходимым условием науки о данных (в отличие от статистики!). Если вам посчастливилось выполнять прогностическую задачу, вы стремитесь к обучению с учителем. Если вы занимаетесь описательным/исследовательским анализом, вы можете перейти к обучению без учителя.

Если вы хотите узнать больше о нашем учебном курсе по науке о данных, посетите наш веб-сайт. Вы также можете увидеть, как выглядит профиль нашего класса и чем занимаются наши выпускники.

Кроме того, в середине 2019 года мы запускаем курс по обработке данных. Подпишитесь на нашу рассылку, чтобы быть в курсе об учебной программе и ее запуске.