Если вы программист на Python или ищете надежную библиотеку, которую можно использовать для внедрения машинного обучения в производственную систему, то библиотека, которую вы захотите серьезно рассмотреть, — это scikit-learn.

Scikit-learn — это библиотека Python с открытым исходным кодом, которая реализует ряд алгоритмов машинного обучения, предварительной обработки, перекрестной проверки и визуализации с использованием унифицированного интерфейса.

Что такое scikit-learn?

Scikit-learn предоставляет ряд контролируемых и неконтролируемых алгоритмов обучения через согласованный интерфейс в Python.

Он распространяется под разрешающей упрощенной лицензией BSD и распространяется во многих дистрибутивах Linux, что способствует академическому и коммерческому использованию.

Библиотека построена на основе SciPy (Scientific Python), которую необходимо установить, прежде чем вы сможете использовать scikit-learn. В этот стек входят:

  • NumPy: пакет базового n-мерного массива
  • SciPy: фундаментальная библиотека для научных вычислений.
  • Matplotlib: всесторонняя двухмерная и трехмерная графика.
  • IPython: улучшенная интерактивная консоль
  • Sympy: символьная математика
  • Pandas: структуры данных и анализ

Различные модули, которые включены в обучение Scikit:

  • Кластеризация: для группировки непомеченных данных, таких как KMeans.
  • Перекрестная проверка: для оценки эффективности контролируемых моделей на невидимых данных.
  • Наборы данных: для тестовых наборов данных и для создания наборов данных с определенными свойствами для исследования поведения модели.
  • Уменьшение размерности: для уменьшения количества атрибутов в данных для суммирования, визуализации и выбора функций, таких как анализ главных компонентов.
  • Методы ансамбля: для объединения прогнозов нескольких контролируемых моделей.
  • Извлечение признаков: для определения атрибутов в изображениях и текстовых данных.
  • Выбор функций: для определения значимых атрибутов, на основе которых создаются контролируемые модели.
  • Настройка параметров: чтобы получить максимальную отдачу от контролируемых моделей.
  • Manifold Learning: для обобщения и отображения сложных многомерных данных.
  • Модели с учителем: широкий спектр, не ограничивающийся обобщенными линейными моделями, дискриминационным анализом, наивным Байесом, ленивыми методами, нейронными сетями, методами опорных векторов и деревьями решений.

Основной пример:

Кто его использует?

В scikit-learning-списках пользователей библиотеки Inria, Mendeley, wise.io, Evernote, Telecom, JP-Morgan, ParisTech и AWeber.

Если это небольшой показатель компаний, которые представили информацию об их использовании, то весьма вероятно, что библиотеку используют десятки или сотни более крупных организаций.

Он имеет хорошее тестовое покрытие и управляемые выпуски и подходит как для прототипов, так и для производственных проектов.

Заключение

В целом, библиотека Scikit-Learn — это очень хорошее место для начала вашего путешествия по машинному обучению, и сильное владение библиотекой позволит нам понять и понять более сложные темы, когда мы углубимся в темы машинного обучения.