Мне нравится инструмент h2o.ai для мл. Это java, но он знаком и делает достойную работу.
Вот информация о стратифицированном разделении в целом:
У меня есть переменная, которая сильно несбалансирована, поэтому мне нужно стратифицированное разделение моих данных на основе R-gui по этой переменной в h2o.ai. Есть ли способ сделать это?
Команда R для разделения данных в инструменте h2o.ai выглядит следующим образом:
splits = h2o.splitFrame(mydata, ratios=myratio, destination_frames=...)
В переменной splitframe нет возможности стратификации. Я знаю, что в инструменте Flow (веб-интерфейс для запуска java) они позволяют использовать сбалансированные классы в подходе с перекрестной проверкой, поэтому где-то там выполняется стратифицированное разделение.
Я ненавижу делать это в базе R, потому что обработка памяти в R не так эффективна, как в h2o.ai, а размеры моих данных велики.
h2o
? - person Allan Cameron   schedule 02.10.2020h2o
имеет разные параметры дляfold_assignment
(один из них стратифицированный). Подробнее об этом здесь - person anddt   schedule 02.10.2020