Если вы программист на Python или ищете надежную библиотеку, которую можно использовать для внедрения машинного обучения в производственную систему, то библиотека, которую вы захотите серьезно рассмотреть, — это scikit-learn.
Scikit-learn — это библиотека Python с открытым исходным кодом, которая реализует ряд алгоритмов машинного обучения, предварительной обработки, перекрестной проверки и визуализации с использованием унифицированного интерфейса.
Что такое scikit-learn?
Scikit-learn предоставляет ряд контролируемых и неконтролируемых алгоритмов обучения через согласованный интерфейс в Python.
Он распространяется под разрешающей упрощенной лицензией BSD и распространяется во многих дистрибутивах Linux, что способствует академическому и коммерческому использованию.
Библиотека построена на основе SciPy (Scientific Python), которую необходимо установить, прежде чем вы сможете использовать scikit-learn. В этот стек входят:
- NumPy: пакет базового n-мерного массива
- SciPy: фундаментальная библиотека для научных вычислений.
- Matplotlib: всесторонняя двухмерная и трехмерная графика.
- IPython: улучшенная интерактивная консоль
- Sympy: символьная математика
- Pandas: структуры данных и анализ
Различные модули, которые включены в обучение Scikit:
- Кластеризация: для группировки непомеченных данных, таких как KMeans.
- Перекрестная проверка: для оценки эффективности контролируемых моделей на невидимых данных.
- Наборы данных: для тестовых наборов данных и для создания наборов данных с определенными свойствами для исследования поведения модели.
- Уменьшение размерности: для уменьшения количества атрибутов в данных для суммирования, визуализации и выбора функций, таких как анализ главных компонентов.
- Методы ансамбля: для объединения прогнозов нескольких контролируемых моделей.
- Извлечение признаков: для определения атрибутов в изображениях и текстовых данных.
- Выбор функций: для определения значимых атрибутов, на основе которых создаются контролируемые модели.
- Настройка параметров: чтобы получить максимальную отдачу от контролируемых моделей.
- Manifold Learning: для обобщения и отображения сложных многомерных данных.
- Модели с учителем: широкий спектр, не ограничивающийся обобщенными линейными моделями, дискриминационным анализом, наивным Байесом, ленивыми методами, нейронными сетями, методами опорных векторов и деревьями решений.
Основной пример:
Кто его использует?
В scikit-learning-списках пользователей библиотеки Inria, Mendeley, wise.io, Evernote, Telecom, JP-Morgan, ParisTech и AWeber.
Если это небольшой показатель компаний, которые представили информацию об их использовании, то весьма вероятно, что библиотеку используют десятки или сотни более крупных организаций.
Он имеет хорошее тестовое покрытие и управляемые выпуски и подходит как для прототипов, так и для производственных проектов.
Заключение
В целом, библиотека Scikit-Learn — это очень хорошее место для начала вашего путешествия по машинному обучению, и сильное владение библиотекой позволит нам понять и понять более сложные темы, когда мы углубимся в темы машинного обучения.