В 2012 году агентство HBS назвало Data Scientist самой привлекательной профессией 21 века. Мы живем в 2022 году, и это утверждение остается верным. Компаниям требуется больше специалистов по данным в нескольких областях бизнеса, чем их можно нанять. Многие люди переходят на науку о данных из других областей, таких как маркетинг, финансы, страхование, разработка программного обеспечения и т. д.

Согласно нашим данным, профессор Чанин Нантасенамат-

«Лучший способ изучить науку о данных — это заниматься наукой о данных».

Большинство моих друзей, которые в настоящее время работают инженерами-программистами, проявили интерес к изучению Data Science. Поэтому я решил написать этот пост для всех начинающих специалистов по данным, которым нужно пошаговое руководство о том, с чего начать свое путешествие в науку о данных.

Шаг 1. Изучите основы программирования Python 3

Все, что вам нужно, это язык программирования, будь то Python 3 или язык R. Рекомендую очень хороший курс специализации от Мичиганского университета.



Этот курс дает пошаговое руководство для начинающих, начиная с переменных, условий и циклов, которое переходит к промежуточным понятиям, таким как параметры ключевых слов, понимание списков, лямбда-выражения и наследование классов.

Для языка R я предлагаю этот курс по Udemy Хосе Портилья. Хосе структурировал этот курс таким образом, что любой новичок сможет очень быстро понять концепции.

Шаг 2. Основные понятия машинного обучения

Машинное обучение — очень важная часть науки о данных, которую должен знать каждый новичок. Большинство компаний тестируют ваши концепции, приложения и опыт в области машинного обучения.

Если вы новичок или немного знакомы с машинным обучением, я предлагаю следующий курс Эндрю Нг.



Эндрю Нг — отличный инструктор, который делает каждую концепцию машинного обучения очень простой для понимания. Он предназначен для студентов и работающих профессионалов, которые являются полными новичками. По окончании этого курса вы не станете экспертом в области машинного обучения, но сможете создавать модели машинного обучения, способные выполнять сложные задачи.

Кроме того, я опубликую несколько средних сообщений после того, как вы пройдете специализацию, которая поможет вам справиться с машинным обучением.









Шаг 3. Изучение науки о данных

Наука о данных — это междисциплинарная область, которая взаимодействует с информатикой, статистикой и предметными знаниями. Чтобы стать квалифицированным специалистом по данным, нужно иметь хорошую базу не в одной, а в нескольких областях.



Вышеупомянутая специализация, основанная на навыках, проведет вас через кусочки науки о данных с Python. Это поможет вам обрести уверенность в статистических данных, машинном обучении, визуализации информации, анализе текста и методах анализа социальных сетей с помощью популярных наборов инструментов Python, таких как pandas, matplotlib, scikit-learn, nltk и networkx, чтобы получить представление об их данные.

После этой специализации вы также можете пройти этот замечательный курс команды 365careers, Data Science Bootcamp 2022.

Сбросить статью, чтобы вы ускорили-



Шаг IV. Статистика, вероятность и математика

Как я упоминал ранее, наука о данных состоит из статистики, вероятности и математики.

Курс по статистическому выводу Майн Четинкая-Рундель следует отличному пути изучения проверки гипотез, доверительных интервалов и методов статистического вывода для категориальных и числовых данных.



Вы также можете пройти фантастический курс по udemy от Кирилла Еременко Статистика для бизнес-аналитики и науки о данных A-Z™.

Снова вставив несколько ссылок, которые я обычно добавляю в закладки для быстрого редактирования-









Шаг V. Изучите SQL для обработки данных

SQL сегодня является одним из самых популярных языков кодирования. Но когда дело доходит до науки о данных, каждый новичок должен хотя бы немного знать об этом. SQL помогает вам в процессе ETL и запуске конвейеров подготовки данных.

Поэтому рекомендуется специализированный курс UC Davis по SQL. Это поможет вам быстро развить беглость SQL, что очень поможет в вашем путешествии по науке о данных.



Нажмите на ссылку нескольких блогов, проходя специализацию-





Шаг VI — Изучение машинного обучения — Продвинутый уровень

Если вы прошли вышеуказанные пять шагов, поздравляем, вы получили значок «Новичок» в области науки о данных. Теперь мы можем немного углубиться в концепции, связанные со вселенной машинного обучения.

Специализация Advanced Machine Learning предлагает вам глубокое обучение, обучение с подкреплением, понимание естественного языка, компьютерное зрение и байесовские методы. Курс разработан ведущими практиками машинного обучения Kaggle и учеными CERN, которые делятся своим опытом решения реальных проблем.



Как обычно, вставка нескольких тем по продвинутому машинному обучению для вас-









Шаг VII. Глубокое обучение

Глубокое обучение — одна из самых увлекательных тем в науке о данных. Это считается передовой технологией искусственного интеллекта.

Эндрю Нг предлагает вам специализированный курс по глубокому обучению, который является настоящей жемчужиной. Он представил каждую концепцию, связанную со свёрточнымисетями, RNN, LSTM, Adam, Dropout и BatchNorm, в такой простой форме, что каждый новичок сможет легко усвоить.



Подводя итог этому разделу с несколькими блогами-









Шаг VIII. Использование Keras/Pytorch для глубокого обучения

Для глубокого изучения одной из оболочек Python обязательно наличие Pytorch или Keras. Тем не менее, большинство новичков начинают с Keras из-за его простоты и легкости для понимания, но в настоящее время Pytorch стал популярной библиотекой среди исследователей глубокого обучения из-за контроля, который он дает вам при построении вашей нейронной сети.

Следовательно, изучение концепций Pytorch поможет вам понять код во многих исследованиях в наши дни.

Джозеф Сантарканджело дает прекрасное объяснение концепций и основ Pytorch.



Даже если вы заинтересованы в Keras, я рекомендую пройти Глубокое обучение с помощью Python и Keras Хосе Портильи.

Вот несколько постов, которые могут быть вам полезны после прохождения этих курсов:







Шаг IX — Развертывание модели — MLOps

Развертывание модели является частью процесса CRISP-DM, который используется во многих промышленных проектах и ​​доказал свою эффективность в системах машинного обучения.

Большинство моих систем машинного обучения потерпели неудачу, потому что я не подумал о развертывании модели до начала начальной фазы. Следовательно, важно подумать о том, как мы можем развернуть нашу модель машинного обучения в рабочей среде, как только она будет готова.

Блейн Сандруд проведет вас через весь процесс создания, обучения и развертывания модели с помощью Amazon SageMaker со встроенными алгоритмами и экземпляром Jupyter Notebook.



Анкит Мистри и его команда также разработали замечательный курс udemy по развертыванию Модели машинного обучения на GCP и Heroku.

Я ненавижу заниматься саморекламой, но вы также можете посмотреть этот мой пост, где я развернул модель машинного обучения на Heroku, используя API для хранения фляг.



Шаг X. Проверка структур данных и алгоритмов

Структуры данных и алгоритмы играют жизненно важную роль в развитии науки о данных.

Да, вы не ослышались! Большинство из нас, специалистов по данным, не уделяют особого внимания структурам данных, но многие компании спрашивают о структурах данных и алгоритмах в процессе собеседования при найме специалистов по данным.

Следовательно, часть вашего драгоценного времени должна быть потрачена на изучение структур данных и алгоритмов. Нил Роудс и команда очень упростили задачу с помощью этого специализированного курса на Coursera.



Если вы хотите быстро прочитать множество статей о структурах данных, доступных в сети, предлагаю несколько здесь:





Заключение

В этом посте я наметил X шагов того, как каждый может начать свое путешествие по науке о данных. Следуя указанным шагам, можно легко перевести своего носителя в науку о данных. Ключевым моментом здесь является постоянное изучение и регулярный пересмотр концепций, чтобы вы могли успешно пройти любое собеседование по науке о данных.

Если вам нравится это руководство, подпишитесь на меня. Если вы заметили какие-либо ошибки в образе мышления, формулах, анимации или коде, сообщите мне об этом.

Ура!