Этот пост посвящен моему занятию по сбору, интеграции и анализу данных DS4100 в Северо-восточном университете.

Пакет Caret, разработанный Максом Куном, является одним из самых популярных пакетов R в CRAN. Он включает в себя множество функций для обучения и построения моделей классификации и регрессии. С более чем 50 000 загрузок в месяц этот пакет действительно является одним из самых популярных в сообществе R для выполнения задач прогнозного моделирования и контролируемого обучения. Он известен как швейцарский армейский нож для машинного обучения с помощью R, поскольку он может выполнять множество задач с помощью одного простого интуитивно понятного синтаксиса.

Вот краткий пример использования набора данных mtcars в R. Для этого примера мы создадим простую модель линейной регрессии, предсказывающую mpgавтомобиля на основе его веса wt.

# Finish the model by replacing the blank with the `train` data
mtcars_model <- train(mpg ~ wt, data = train, method = “lm”)
# Predict the mpg of each car by replacing the blank with the `test` data.
results <- predict(mtcars_model, newdata = test)
# Print the `results` object
results

Синтаксис прост и гибок. Вы можете попробовать новые модели, изменив аргумент method =.

Я начал использовать каретку после прохождения курса Инструменты машинного обучения на DataCamp. В этом курсе рассказывается, как строить регрессионные модели с помощью каретки, подгонять их и оценивать их производительность. Он также охватывает модели классификации с кареткой и способы их подбора и оценки. Вы также узнаете, как настраивать параметры модели для повышения производительности и как выполнять предварительную обработку данных. В последней главе вы найдете полезную задачу для практического изучения новых навыков.

Мне очень понравилось использовать курсор в моем рабочем процессе, и он стал одним из моих наиболее часто используемых пакетов R, когда я делаю что-либо с контролируемым обучением. Я нахожу это очень полезным, так как вы можете попробовать множество разных типов моделей с одним и тем же синтаксисом. Это означает, что вы можете быстро протестировать множество различных типов моделей, чтобы найти оптимальную для вашей задачи, без необходимости искать синтаксис для каждой из этих моделей по отдельности. Я настоятельно рекомендую вам ознакомиться с caret package и использовать его в своих проектах!