Этот пост подытоживает мой предварительный путь к карьере в науке о данных. Сначала идет список для чтения, затем список курсов (онлайн или лично), которые не входят в традиционный процесс аккредитации колледжа. Моя цель — получить реальные знания, необходимые в этой области. Университеты с трудом успевают за этим. В идеале я надеюсь быть лучше подготовленным в программировании и статистике, чем тот, кто имеет степень магистра, но это потребует больше, чем текущие ресурсы, описанные здесь.

Я решил опубликовать это по двум причинам: (а) я надеюсь, что лучше мотивирую себя завершить их, документируя свой прогресс, и (б) люди должны лучше оценить то, что это поле на самом деле влечет за собой, чтобы они могли решить, подходит ли это им, а также понять, откуда берутся шестизначные зарплаты, часто связанные с наукой о данных.

Что касается второго пункта: как же я был глуп, когда больше десяти лет назад полагал, что карьера в сфере ИТ — это не более чем нажимание кнопок перед экраном (и, следовательно, должно быть легче, чем каторга). Помимо трудностей, связанных с выполнением самой работы, требуется огромное количество времени даже для того, чтобы получить квалификацию для вхождения в такие области. Через мгновение вы увидите, что я имею в виду.

Итак, без лишних слов, вот список (текущий и часто повторяющийся) для чтения, который я имею в виду. Многие из них я уже закончил. Я также включил количество страниц для всего, что предшествует указателю любой данной книги.

Этот список в настоящее время сосредоточен на более общих темах науки о данных. Позже будут добавлены вещи, которые охватывают более конкретные инструменты, такие как Spark или MongoDB.

  1. Наука о данных для чайников — 365
  2. Основы статистики для чайников — 170
  3. Наука о данных с нуля — 300
  4. Полевой справочник по науке о данных — 120
  5. Основы работы с ноутбуком Ipython — 165
  6. Начало работы с SQL — 110
  7. Неверная статистика — 130
  8. Изучение Javascript — 325
  9. Поваренная книга Scikit-Learn — 190
  10. Интерактивная визуализация данных для Интернета — 250
  11. Машинное обучение с помощью Scikit-Learn — 215
  12. Вероятность — введение — 250
  13. Освоение Python для науки о данных — 265
  14. Введение в науку о данных — 285
  15. Практическая статистика для науки о данных — 225
  16. Скрапинг веб-страниц с помощью Python — 300
  17. Python для науки о данных для чайников — 305
  18. Практический анализ данных — 325
  19. Линейная алгебра для чайников — 350
  20. Практическая поваренная книга по науке о данных — 350
  21. Основы математики для науки и техники — 700

Будет добавлено больше, а некоторые могут быть удалены. Все сводится к тому, какие книги, по-видимому, охватывают наибольшую часть информации наиболее кратким образом (если исходить из оглавления книги). Одна из причин, по которой мне нравятся книги «Для чайников» или что-либо, опубликованное, например, O’Reilly Media, заключается в том, что оглавление достаточно организовано, чтобы его можно было использовать в качестве учебных пособий. Просто время от времени просматривайте оглавление и читайте все, о чем вы забыли.

Теперь о онлайн-курсах или очных курсах, которые я уже прошел или планирую пройти. Они были или будут дополнены различными вещами с таких сайтов, как Codecademy, Dataquest или Datacamp, а также с сайтов, которые каким-то образом измеряют способности, таких как Code Wars, Hacker Rank или Проект Эйлер.

  1. Введение в программирование «Наностепень» — Udacity
  2. Заочный курс Data Science — Генеральная Ассамблея
  3. Аналитик данных «Наноградус» — Udacity
  4. Полное погружение в науку о данных — Galvanize
  5. Инженер по машинному обучению «Наноградус» — Udacity

Честно говоря, маркетинг курсов «наностепени» заставляет их казаться гораздо менее серьезными и всеобъемлющими, чем они есть на самом деле. Первый курс в этом списке действительно прояснил мне это. Я предполагаю, что они надеются привлечь пользователей, которые обычно до смерти боятся информатики, и дать им возможность доказать, что они ошибаются в своих способностях.

К тому времени, когда я закончу иммерсивное погружение в Galvanize, я получу квалификацию для постоянной работы в этой области и надеюсь продолжить ее. Программа инженера по машинному обучению, которую предлагает Udacity, предназначена для дополнительной практики, а также для того, чтобы добавить что-то еще в мое резюме, если одного курса Galvanize окажется недостаточно.

Мой вывод из двух информационных сессий, которые я посетил в Galvanize для их Data Science Immersive, заключается в том, что подавляющее большинство людей, которые проходят этот курс, уже имеют степень в отдельной (обычно количественной) области. Полный отказ от пути колледжа в пользу чисто практических знаний не обязательно означает, что кто-то обречен, но это, безусловно, помогает общаться с людьми, уже работающими в отрасли, если вы хотите пройти через перчатку кадров.

Прелесть описанного здесь маршрута заключается в том, что преподаваемые навыки не устарели, и, в отличие от большей части общих требований, предъявляемых к университетским степеням, эти организации полностью сосредоточены на том, что необходимо для работы в этой области.

Считайте все это примером того, как может выглядеть будущее высшего образования.