Как выполнить стратифицированное случайное разбиение в R h2o.ai?

Мне нравится инструмент h2o.ai для мл. Это java, но он знаком и делает достойную работу.

Вот информация о стратифицированном разделении в целом:

У меня есть переменная, которая сильно несбалансирована, поэтому мне нужно стратифицированное разделение моих данных на основе R-gui по этой переменной в h2o.ai. Есть ли способ сделать это?

Команда R для разделения данных в инструменте h2o.ai выглядит следующим образом:

splits = h2o.splitFrame(mydata, ratios=myratio, destination_frames=...)

В переменной splitframe нет возможности стратификации. Я знаю, что в инструменте Flow (веб-интерфейс для запуска java) они позволяют использовать сбалансированные классы в подходе с перекрестной проверкой, поэтому где-то там выполняется стратифицированное разделение.

Я ненавижу делать это в базе R, потому что обработка памяти в R не так эффективна, как в h2o.ai, а размеры моих данных велики.


person EngrStudent    schedule 02.10.2020    source источник
comment
Я не уверен, что вы дали достаточно информации, чтобы позволить кому-либо помочь вам здесь. Вы знаете, что для R существует пакет h2o?   -  person Allan Cameron    schedule 02.10.2020
comment
@AllanCameron - абсолютно точно есть пакет h2o.ai для r. Он называется h2o, но здесь, на SO, это неоднозначно, потому что есть еще один пакет с именем h2o, который не имеет ничего общего с машинным обучением.   -  person EngrStudent    schedule 02.10.2020
comment
ОК - в таком случае, что вы на самом деле спрашиваете? Кажется, вы задали концептуальный вопрос о стратифицированном разделении ваших данных без какого-либо конкретного примера того, что вы имеете в виду, а затем спросили, есть ли способ сделать это?! Ответ: Да, наверное!. Если вам нужен более подробный ответ, нам, вероятно, нужен более подробный вопрос.   -  person Allan Cameron    schedule 02.10.2020
comment
@AllanCameron - мне нужно сделать это в рамках. Это вообще не концептуально. Фреймворк указан, задача указана, ответа нет ни в сети, ни в хелп-документах (которые я могу найти).   -  person EngrStudent    schedule 02.10.2020
comment
EngrStudent, ваш обновленный вопрос делает вещи намного яснее и делает ваш вопрос намного лучше. Я удалил свой отрицательный голос и закрыл голосование. Спасибо   -  person Allan Cameron    schedule 02.10.2020
comment
@EngrStudent Я не думаю, что вам нужно применять стратифицированную выборку перед обучением модели, учитывая, что h2o имеет разные параметры для fold_assignment (один из них стратифицированный). Подробнее об этом здесь   -  person anddt    schedule 02.10.2020
comment
Если я не выполняю фолды, потому что каждый отдельный запуск вычислений занимает намного больше времени, чем я могу себе позволить, то назначение фолдов не помогает. Я делаю разделение поезд/валид, потому что должен, а не потому, что хочу. Я предпочитаю 5-кратное резюме, но я не могу себе это позволить прямо сейчас.   -  person EngrStudent    schedule 02.10.2020