Машинное обучение для аналитиков данных


Модель прогнозирования смертности от рака на основе набора данных регрессии OLS

загрузить библиотеку

загрузить набор данных

cancer_mortal <- read_csv("cancer_reg.csv")
пропущенные значения (полные?)

дата имеет много пропущенных значений

удалить пропущенные значения

cancer_mortal <- cancer_mortal %>%

изучить данные, найти выброс

1.разделить данные

id <- createDataPartition(y = cancer_mortal$TARGET_deathRate,
                          p = 0.8,
                          list = F)
train_cancer_df <- cancer_mortal[id, ]
test_cancer_df <- cancer_mortal[-id, ]

2. модель обучения с линейной регрессией

ctrl <- trainControl(method = "cv",
                     number = 5,
                     verboseIter = T)
lm_model <- train(TARGET_deathRate ~ avgAnnCount +
                    avgDeathsPerYear +
                    incidenceRate +
                    MedianAge +
                    binnedInc +
                    PctBachDeg18_24 +
                    PctBachDeg25_Over +
                    PctEmployed16_Over +
                    PctPrivateCoverage +
                    PctPublicCoverage +
                    PctWhite +
                    PctBlack +
                  data = train_cancer_df,
                  method = "lm",
                  trControl = ctrl)
3. Набор тестов для прогнозирования (оценка)

p_lm <- predict(lm_model, newdata = test_cancer_df)

4. оценить модель

test_rmse <- sqrt(mean((test_cancer_df$TARGET_deathRate - p_lm)**2))
call('RMSE =', test_rmse)
## `RMSE =`(21.1085977415944)