Наука о данных - это междисциплинарная область, которая содержит методы и приемы из таких областей, как статистика, машинное обучение, байесовский анализ и т. Д. Все они направлены на получение конкретной информации на основе данных. В этой статье мы перечисляем несколько отличных книг по науке о данных, которые охватывают широкий спектр тем, относящихся к науке о данных.

1. Элемент стиля аналитики данных

В этой книге дается обзор науки о данных. Наука о данных - это очень обширный обобщающий термин, и эта книга хороша для всех, кто впервые пытается замочить ноги в поле. Прочтите его, чтобы понять, что такое Data Science, каковы некоторые общие задачи и алгоритмы, а также некоторые общие советы и рекомендации.

2. Основы науки о данных

Основы науки о данных - это трактат по избранным областям, которые составляют основу науки о данных, таким как линейная алгебра, LDA, цепи Маркова, основы машинного обучения и статистика. Идеальные читатели для книги - это начинающие специалисты по анализу данных, желающие улучшить свои математические и теоретические знания в этой области.

3. Майнинг массивных наборов данных

Основанная на Стэнфордских курсах CS246 и CS35A, книга помогает пользователям изучать темы для интеллектуального анализа данных на больших наборах данных. Часто очень распространенная проблема, которую приходится решать специалисту по данным, - это выполнение простых числовых задач (которые вы можете решить, написав небольшие фрагменты программ) над очень большим набором данных. MMDS работает именно в этом направлении. Кроме того, у вас есть такие темы, как уменьшение размерности и системы рекомендаций, которые помогут вам узнать о применении линейной алгебры и метрических расстояний в реальном мире. Абсолютно обязательное чтение для всех специалистов по анализу данных.

4. Справочник по науке о данных Python

Справочник Python по науке о данных обучает применению различных концепций науки о данных в Python. Вероятно, лучшая книга для изучения науки о данных на Python (единственный эквивалент - Книга о мышах Уэса МакКинни), эту книгу также можно бесплатно прочитать на Github. Так что вы можете учиться, не тратя денег.

5. Практическое машинное обучение и большие данные

6. Думайте статистику

Think Stats учит читателей основам статистики, то есть читатели будут применять статистические концепции и распределения к реальным наборам данных и пытаться больше узнать о данных, используя математические характеристики. Вероятно, одна из лучших книг для начала, если вы хотите изучать статистику с помощью Python.

7. Думай о Байесе

Байесовская статистика работает несколько иначе, чем обычная статистика. Понятия неопределенности и подгонки распределений к реальным наборам данных делают байесовские методы более подходящими для изучения реальных наборов данных. Чрезвычайно крутой стиль профессора Дауни «учись, программируя на Python» превращает книгу в удовольствие для тех, кто только начинает изучать байесовские методы.

8. Введение в линейные динамические системы.

Эта книга учит прикладной линейной алгебре в реальных системах. Приложения включают схемы, обработку сигналов, коммуникации и системы управления. Ссылку на записи курса профессора Бойда за предыдущие годы можно найти здесь.

9. Выпуклая оптимизация.

Выпуклая оптимизация - это то, что многие алгоритмы машинного обучения (и почти все алгоритмы глубокого обучения) используют в фоновом режиме для достижения оптимального набора параметров.

10. Основы метаэвристики

Метаэвристика - это вероятностные способы быстрого обучения для решения задач, которые в противном случае потребовали бы от вас написания программ для поиска с использованием грубой силы. Для, возможно, небольших данных, подходы грубой силы требуют меньше усилий для реализации, но они очень быстро исчерпываются с увеличением количества добавленных данных. Эта книга, вероятно, является лучшим введением в метаэвристические методы, такие как генетические алгоритмы, восхождение на холм, коэволюция и (базовое) обучение с подкреплением.

11. Машинное обучение на Python: основные разработки и технологические тенденции в области науки о данных, машинного обучения и искусственного интеллекта

Хороший обзор инструментов Python в науке о данных. Очень хороший документ для старшего разработчика Python, желающего заняться наукой о данных, или для тех, кто переходит на Python из R для науки о данных. В целом, если вы хотите понять, что Python может сделать для науки о данных, вам следует прочитать эту статью.

12. Прикладная наука о данных

Прикладная наука о данных Лэнгмора и Краснера - это книга, в которой используется очень практический подход к преподаванию науки о данных. Начиная с использования Git и обучения основам Python, книга переходит к построению основ различных алгоритмов, которые часто используются в области науки о данных.

13. Бандитская книга

По мере того, как накапливается все больше и больше данных, принятие решений больше не является функцией интуиции, а является функцией собранных данных. Какого цвета кнопка покупки на веб-сайте электронной коммерции для принятия решений о тестировании на наркотики и финансовом портфеле, бандитские алгоритмы используются повсюду? Очень хорошая книга для знакомства с «бандитизмом»!

14. Аннотированные алгоритмы

Книга, которая научит вас программировать многие числовые алгоритмы на Python. Отличный ресурс, если вы хотите узнать, как реализованы математические программы или хотите изучить Python с интересными постановками задач.

15. Статистический вывод компьютерного возраста

Книга Эфрона и легендарного Хасти, размышляющего о том, как статистический вывод (как частотный, так и байесовский) должен быть сделан в наше время с использованием вычислительной мощности, доступной в настоящее время, а не подхода, основанного на ручке и бумаге, который используется в большинстве других книг. Это обязательно к прочтению всем (новичкам или опытным), которые намереваются использовать статистику в реальной жизни.

16. Книга причинных выводов

«Корреляция - это не причинно-следственная связь» - это фраза, которую часто используют специалисты по анализу данных. Но как их разделить? Эта книга дает специалистам по анализу данных ответы, описывая методы причинного вывода. Чтобы прочитать его, вам понадобятся хорошие основы вероятности, а не для новичков.

17. Вычислительный оптимальный транспорт

Оптимальный перенос - это математика присвоения одного набора распределений другому. Вероятно, это одна из немногих областей науки о данных, которая выиграла более одной медали Филдса (высшая награда в математике). Математические концепции используются во многих алгоритмах машинного обучения и глубокого обучения в качестве показателей расстояния и для решения задач назначения.

18. Алгебра, топология, дифференциальное исчисление и теория оптимизации для информатики и машинного обучения

Книга направлена ​​на преподавание различных математических областей, необходимых в компьютерных науках и машинном обучении. Довольно математический и хороший ресурс для тех, кто хочет прийти в Data Science из тяжелых областей математики.

19. Интеллектуальный анализ и анализ данных

Data Mining, как вы, возможно, видели в более известной книге MMDS, упомянутой ранее, - это метод эффективного выполнения вычислений на большом наборе данных. Эти вычисления могут выполняться методами грубой силы и могут хорошо работать с небольшими наборами данных, но на больших наборах данных может потребоваться очень много времени. Хороший вводный и справочник по интеллектуальному анализу данных.

20. Вычислительное и логическое мышление

Рассматривает различные аспекты науки о данных от программирования на Python, причинно-следственных связей, таблиц, визуализации и базовой статистики. Из базового курса Калифорнийского университета в Беркли, так что это хороший ресурс для начинающих.

21. Математические основы науки о данных

Как следует из названия, книга дает и объясняет математический трактат, лежащий в основе таких понятий науки о данных, как выпуклая оптимизация и уменьшение размерности. Эта книга рекомендуется, если вам нравится математика или вы специально хотите изучить математику, лежащую в основе этих понятий.

22. Теория информации для умных людей.

Теория информации - одна из четырех математических теорий, которые вы найдете в Data Science, наряду с линейной алгеброй, выпуклой оптимизацией и статистикой. Это хорошее руководство для понимания теории. Хорошо то, что руководство доступно для начинающих.

23. Введение в прикладную линейную алгебру - Книга VMLS

Моя любимая книга по линейной алгебре из многих, которые я упомяну в этом списке. Он доступен для начинающих и имеет очень прикладное отношение к нему, не заставляя читателя теряться во многих математических понятиях.

24. Линейная алгебра - Хефферон.

Многие считают, что это лучшие ресурсы по линейной алгебре для начинающих, доступные после Библии Стронга. Также очень прикладной (упражнения по программированию в SAGE, который в основном представляет собой Python), но больше для новичков, чем для практиков.

25. Линейная алгебра - как введение в абстрактную математику

Эта книга похожа на мою книгу по линейной алгебре в колледже (которую любили многие студенты, изучавшие со мной инженерное дело). Я немного теряюсь, когда слишком много математики и немного меньше приложений, но многим понравится элегантность таких книг.

26. Основы линейной алгебры и оптимизации.

В этой книге линейная алгебра сочетается с алгоритмами оптимизации. Опять же, больше книг по математике для людей, которым нравится этот стиль.

27. Конспект лекций по линейной алгебре - Лернер

Мне это показалось действительно хорошим, это все равно что показать вам несколько решенных задач, чтобы вы научились. Не такая строгость, как в более ранних книгах, и больше обучения наглядно. Хорошее напоминание для людей, которые давно не прикасались к линейной алгебре.

28. Конспект лекций по рандомизированной линейной алгебре

Не всем придется читать книгу, поскольку в ней рассматриваются вероятностные алгоритмы решения задач линейной алгебры. Полезно, если вы работаете с большими матрицами и векторами, где простые алгоритмы не работают.

29. Линейная алгебра через внешние продукты

Совершенно другой способ взглянуть на линейную алгебру. Если вам нравится линейная алгебра, вам следует попробовать визуализировать проблемы этим новым способом.

30. Линейная алгебра - Черный и др.

Еще одна бесплатная книга по линейной алгебре для вузов. Подходит для новичков. Кроме того, если вы хотите практиковаться, у вас возникают проблемы с домашним заданием.

31. Матричное исчисление, необходимое для глубокого обучения

Как следует из названия, учебник поможет вам понять матричное исчисление, необходимое для глубокого обучения.

32. Оптимизация: Введение

Оптимизация параметров требуется в задачах, связанных с инженерными областями. Хотя конвексная оптимизация используется во многих алгоритмах глубокого обучения, при знакомстве с другими алгоритмами, такими как линейное программирование, симплекс расширяет горизонты.

33. Scipy Lecture Notes.

Если вы собираетесь работать в Data Science, вам необходимо изучить научный стек Python. Вероятно, лучший общий учебник для изучения Numpy, Scipy, Scikit-Learn, Scikit-Image и всех необходимых библиотек.

34. Pandas Mega Tutorial

Это огромное руководство создано командой разработчиков Pandas для изучения и понимания библиотеки. Pandas - это библиотека, которую необходимо изучить, если вы работаете в области науки о данных. Выхода нет.

35. Фильтры Калмана и Байеса в Python.

Фильтры Калмана и другие байесовские фильтры полезны при работе с зашумленными данными, поступающими со временем, которые могут быть адаптированы к определенной модели с параметрами, которые необходимо вывести. Эти модели делают двоякое: они определяют параметры, а также моделируют шум. Хотя чаще всего используются данные о местоположении, аналогичные фильтры также могут хорошо работать при прогнозировании. (Также доступно на Github)

36. Статистический вывод для науки о данных

Перед этим мы просмотрели несколько книг по статистическим выводам, но эта написана специально для ученых-данных. Если вы специалист по данным и пытаетесь быстро разобраться в статистических выводах, это ваша книга.

37. Математика для машинного обучения

Подробная книга по математике, необходимая для понимания большинства существующих алгоритмов машинного обучения. Подходит для новичков.

38. Теория видения.

Книга, которая упрощает изучение вероятности с помощью интерактивных визуализаций.

39. Основы статистики.

Книга, знакомящая вас с изучением статистики. Начинающим, которые никогда не изучали статистику, следует начать здесь.

40. Открытая статистика

Совмещение книги и видеолекций, знакомящих читателей со статистикой.

41. Расширенный анализ данных с элементарной точки зрения

Общее введение в различные концепции Data Science. Сюда входят причинно-следственные модели, регрессионные модели, факторные модели и так далее. Примеры программ написаны на языке R.

42. Быстрые данные, разумно и масштабируемо

Книга, объясняющая оптимизацию баз данных для быстрых запросов. В нем рассказывается о различных возможных моделях в реальном мире.

43. Введение в многорукие бандиты.

Многорукие бандиты - это алгоритмы, которые принимают решение с течением времени в условиях неопределенности. Эта книга представляет собой вводный трактат о многоруких бандитах.

44. Лекции по квантовой экономике

Лекции по количественной экономике и программированию на ваших любимых языках программирования: Python или Julia.

45. Статистика с Юлией

Статистик изучает Юлию или (что менее вероятно) Юлию изучает статистику программиста? Попробуйте эту книгу.

46. ​​Теория информации, логические выводы и алгоритмы обучения.

Теория информации и умозаключение обычно рассматриваются по-разному, но в книге покойного профессора Маккея предпринимаются попытки затронуть обе эти темы.

47. Научное совершенствование принятия решений и управления рисками.

Не слишком технический учебник по вероятностному принятию решений.

48. Тридцать три миниатюры: математические и алгоритмические приложения линейной алгебры

На самом деле это не книга по линейной алгебре, а несколько интересных приложений линейной алгебры, собранные в книгу.

49. Учебник по генетическим алгоритмам

Генетические алгоритмы - это инструменты, которые все специалисты по анализу данных должны использовать когда-нибудь в своей жизни. Это руководство поможет новичкам понять, как работают генетические алгоритмы.

50. Вычисления в исследовании операций с использованием Джулии

Если вы работаете с очередями или другими проблемами операционных исследований, Julia может быть языком программирования, который вам может очень понравиться. Программы легко читаются, как Python, и работают невероятно быстро.

Если вы начинающий специалист по анализу данных и думаете, что у вас есть все, что нужно для работы в этой области, отправьте свое резюме, чтобы получить шанс стать частью команды специалистов по анализу данных ParallelDots.