В 2012 году агентство HBS назвало Data Scientist самой привлекательной профессией 21 века. Мы живем в 2022 году, и это утверждение остается верным. Компаниям требуется больше специалистов по данным в нескольких областях бизнеса, чем их можно нанять. Многие люди переходят на науку о данных из других областей, таких как маркетинг, финансы, страхование, разработка программного обеспечения и т. д.
Согласно нашим данным, профессор Чанин Нантасенамат-
«Лучший способ изучить науку о данных — это заниматься наукой о данных».
Большинство моих друзей, которые в настоящее время работают инженерами-программистами, проявили интерес к изучению Data Science. Поэтому я решил написать этот пост для всех начинающих специалистов по данным, которым нужно пошаговое руководство о том, с чего начать свое путешествие в науку о данных.
Шаг 1. Изучите основы программирования Python 3
Все, что вам нужно, это язык программирования, будь то Python 3 или язык R. Рекомендую очень хороший курс специализации от Мичиганского университета.
Этот курс дает пошаговое руководство для начинающих, начиная с переменных, условий и циклов, которое переходит к промежуточным понятиям, таким как параметры ключевых слов, понимание списков, лямбда-выражения и наследование классов.
Для языка R я предлагаю этот курс по Udemy Хосе Портилья. Хосе структурировал этот курс таким образом, что любой новичок сможет очень быстро понять концепции.
Шаг 2. Основные понятия машинного обучения
Машинное обучение — очень важная часть науки о данных, которую должен знать каждый новичок. Большинство компаний тестируют ваши концепции, приложения и опыт в области машинного обучения.
Если вы новичок или немного знакомы с машинным обучением, я предлагаю следующий курс Эндрю Нг.
Эндрю Нг — отличный инструктор, который делает каждую концепцию машинного обучения очень простой для понимания. Он предназначен для студентов и работающих профессионалов, которые являются полными новичками. По окончании этого курса вы не станете экспертом в области машинного обучения, но сможете создавать модели машинного обучения, способные выполнять сложные задачи.
Кроме того, я опубликую несколько средних сообщений после того, как вы пройдете специализацию, которая поможет вам справиться с машинным обучением.
Начните здесь с машинного обучения — мастерство машинного обучения
Средний уровень Мне чаще всего задают вопрос: «С чего начать? ' Мой лучший совет, как начать работу с…machinelearningmastery.com»
Шаг 3. Изучение науки о данных
Наука о данных — это междисциплинарная область, которая взаимодействует с информатикой, статистикой и предметными знаниями. Чтобы стать квалифицированным специалистом по данным, нужно иметь хорошую базу не в одной, а в нескольких областях.
Вышеупомянутая специализация, основанная на навыках, проведет вас через кусочки науки о данных с Python. Это поможет вам обрести уверенность в статистических данных, машинном обучении, визуализации информации, анализе текста и методах анализа социальных сетей с помощью популярных наборов инструментов Python, таких как pandas, matplotlib, scikit-learn, nltk и networkx, чтобы получить представление об их данные.
После этой специализации вы также можете пройти этот замечательный курс команды 365careers, Data Science Bootcamp 2022.
Сбросить статью, чтобы вы ускорили-
Шаг IV. Статистика, вероятность и математика
Как я упоминал ранее, наука о данных состоит из статистики, вероятности и математики.
Курс по статистическому выводу Майн Четинкая-Рундель следует отличному пути изучения проверки гипотез, доверительных интервалов и методов статистического вывода для категориальных и числовых данных.
Вы также можете пройти фантастический курс по udemy от Кирилла Еременко Статистика для бизнес-аналитики и науки о данных A-Z™.
Снова вставив несколько ссылок, которые я обычно добавляю в закладки для быстрого редактирования-
Шаг V. Изучите SQL для обработки данных
SQL сегодня является одним из самых популярных языков кодирования. Но когда дело доходит до науки о данных, каждый новичок должен хотя бы немного знать об этом. SQL помогает вам в процессе ETL и запуске конвейеров подготовки данных.
Поэтому рекомендуется специализированный курс UC Davis по SQL. Это поможет вам быстро развить беглость SQL, что очень поможет в вашем путешествии по науке о данных.
Нажмите на ссылку нескольких блогов, проходя специализацию-
Шаг VI — Изучение машинного обучения — Продвинутый уровень
Если вы прошли вышеуказанные пять шагов, поздравляем, вы получили значок «Новичок» в области науки о данных. Теперь мы можем немного углубиться в концепции, связанные со вселенной машинного обучения.
Специализация Advanced Machine Learning предлагает вам глубокое обучение, обучение с подкреплением, понимание естественного языка, компьютерное зрение и байесовские методы. Курс разработан ведущими практиками машинного обучения Kaggle и учеными CERN, которые делятся своим опытом решения реальных проблем.
Как обычно, вставка нескольких тем по продвинутому машинному обучению для вас-
Шаг VII. Глубокое обучение
Глубокое обучение — одна из самых увлекательных тем в науке о данных. Это считается передовой технологией искусственного интеллекта.
Эндрю Нг предлагает вам специализированный курс по глубокому обучению, который является настоящей жемчужиной. Он представил каждую концепцию, связанную со свёрточнымисетями, RNN, LSTM, Adam, Dropout и BatchNorm, в такой простой форме, что каждый новичок сможет легко усвоить.
Подводя итог этому разделу с несколькими блогами-
Шаг VIII. Использование Keras/Pytorch для глубокого обучения
Для глубокого изучения одной из оболочек Python обязательно наличие Pytorch или Keras. Тем не менее, большинство новичков начинают с Keras из-за его простоты и легкости для понимания, но в настоящее время Pytorch стал популярной библиотекой среди исследователей глубокого обучения из-за контроля, который он дает вам при построении вашей нейронной сети.
Следовательно, изучение концепций Pytorch поможет вам понять код во многих исследованиях в наши дни.
Джозеф Сантарканджело дает прекрасное объяснение концепций и основ Pytorch.
Даже если вы заинтересованы в Keras, я рекомендую пройти Глубокое обучение с помощью Python и Keras Хосе Портильи.
Вот несколько постов, которые могут быть вам полезны после прохождения этих курсов:
Шаг IX — Развертывание модели — MLOps
Развертывание модели является частью процесса CRISP-DM, который используется во многих промышленных проектах и доказал свою эффективность в системах машинного обучения.
Большинство моих систем машинного обучения потерпели неудачу, потому что я не подумал о развертывании модели до начала начальной фазы. Следовательно, важно подумать о том, как мы можем развернуть нашу модель машинного обучения в рабочей среде, как только она будет готова.
Блейн Сандруд проведет вас через весь процесс создания, обучения и развертывания модели с помощью Amazon SageMaker со встроенными алгоритмами и экземпляром Jupyter Notebook.
Анкит Мистри и его команда также разработали замечательный курс udemy по развертыванию Модели машинного обучения на GCP и Heroku.
Я ненавижу заниматься саморекламой, но вы также можете посмотреть этот мой пост, где я развернул модель машинного обучения на Heroku, используя API для хранения фляг.
Шаг X. Проверка структур данных и алгоритмов
Структуры данных и алгоритмы играют жизненно важную роль в развитии науки о данных.
Да, вы не ослышались! Большинство из нас, специалистов по данным, не уделяют особого внимания структурам данных, но многие компании спрашивают о структурах данных и алгоритмах в процессе собеседования при найме специалистов по данным.
Следовательно, часть вашего драгоценного времени должна быть потрачена на изучение структур данных и алгоритмов. Нил Роудс и команда очень упростили задачу с помощью этого специализированного курса на Coursera.
Если вы хотите быстро прочитать множество статей о структурах данных, доступных в сети, предлагаю несколько здесь:
Заключение
В этом посте я наметил X шагов того, как каждый может начать свое путешествие по науке о данных. Следуя указанным шагам, можно легко перевести своего носителя в науку о данных. Ключевым моментом здесь является постоянное изучение и регулярный пересмотр концепций, чтобы вы могли успешно пройти любое собеседование по науке о данных.
Если вам нравится это руководство, подпишитесь на меня. Если вы заметили какие-либо ошибки в образе мышления, формулах, анимации или коде, сообщите мне об этом.
Ура!