Последние три года или около того я использую R ежедневно, и большая часть этого ежедневного использования уходит на решение задач машинного обучения/интеллектуального анализа данных.
Я был эксклюзивным пользователем Matlab, когда учился в университете; в то время я думал, что это отличный набор инструментов/платформы. Уверен, что и сегодня.
Наборы инструментов Neural Network Toolbox, Optimization Toolbox, Statistics Toolbox и Curve Fitting Toolbox крайне желательны (если не необходимы) для тех, кто использует MATLAB для работы с машинным обучением/интеллектуальным анализом данных, однако все они отдельны от базовая среда MATLAB, другими словами, их необходимо приобретать отдельно.
Мой список 5 лучших для изучения машинного обучения/интеллектуального анализа данных в R:
Это относится к нескольким вещам: во-первых, к группе пакетов R, которые начинаются с arules (доступно в CRAN); полный список (arules, aruluesViz и т. д.) можно найти на домашней странице проекта. Во-вторых, все эти пакеты основаны на методе интеллектуального анализа данных, известном как Market-Basked Analysis или, как альтернатива, как Правила ассоциации. Во многих отношениях это семейство алгоритмов представляет собой суть интеллектуального анализа данных — исчерпывающий обход больших баз данных транзакций и поиск ассоциаций или корреляций выше среднего среди полей (переменных или признаков) в этих базах данных. На практике вы подключаете их к источнику данных и позволяете им работать всю ночь. Центральный пакет R в упомянутом выше наборе называется arules; На странице пакета CRAN для arules вы найдете ссылки на пару отличных вторичных источников (виньетки в лексиконе R) по пакету arules и технике правил ассоциации в целом. .
Самое последнее издание этой книги доступно в цифровой форме бесплатно. Точно так же на веб-сайте книги (ссылка на него чуть выше) доступны для бесплатного скачивания все наборы данных, используемые в ESL. (Кроме того, у меня есть бесплатная цифровая версия; я также купил версию в твердом переплете на BN.com; все цветные схемы в цифровой версии воспроизведены в версии в твердом переплете.) ESL содержит подробное введение по крайней мере к одному образцу из большинство основных рубрик ML, например, нейронные сети, SVM, KNN; неконтролируемые методы (LDA, PCA, MDS, SOM, кластеризация), многочисленные разновидности регрессии, CART, байесовские методы, а также методы агрегирования моделей (Boosting, Bagging) и настройки модели (регуляризация). Наконец, получите пакет R, который сопровождает книгу, из CRAN (что избавит вас от необходимости загружать наборы данных).
- CRAN Представление задач: машинное обучение
Более 3500 пакетов, доступных для R, разделены по доменам примерно на 30 семейств пакетов или «представления задач< /а>'. Машинное обучение — одно из таких семейств. Представление задач машинного обучения содержит около 50 пакетов. Некоторые из этих пакетов являются частью основного дистрибутива, в том числе e1071 (обширный пакет машинного обучения, включающий рабочий код для довольно многих обычных категорий машинного обучения).
Особое внимание уделяется сообщениям, помеченным Predictive Analytics
Тщательное изучение кода само по себе станет отличным введением в машинное обучение в R.
И последний ресурс, который я считаю отличным, но не попал в топ-5:
опубликовано в блоге A Beautiful WWW
person
doug
schedule
27.01.2011