Как выполнить стратифицированное случайное разбиение в R h2o.ai?

Мне нравится инструмент h2o.ai для мл. Это java, но он знаком и делает достойную работу.

Вот информация о стратифицированном разделении в целом:

У меня есть переменная, которая сильно несбалансирована, поэтому мне нужно стратифицированное разделение моих данных на основе R-gui по этой переменной в h2o.ai. Есть ли способ сделать это?

Команда R для разделения данных в инструменте h2o.ai выглядит следующим образом:

splits = h2o.splitFrame(mydata, ratios=myratio, destination_frames=...)

В переменной splitframe нет возможности стратификации. Я знаю, что в инструменте Flow (веб-интерфейс для запуска java) они позволяют использовать сбалансированные классы в подходе с перекрестной проверкой, поэтому где-то там выполняется стратифицированное разделение.

Я ненавижу делать это в базе R, потому что обработка памяти в R не так эффективна, как в h2o.ai, а размеры моих данных велики.

r sampling h2o.ai

EngrStudent 02.10.2020 источник

comment

Я не уверен, что вы дали достаточно информации, чтобы позволить кому-либо помочь вам здесь. Вы знаете, что для R существует пакет h2o? - Allan Cameron 02.10.2020

comment

@AllanCameron - абсолютно точно есть пакет h2o.ai для r. Он называется h2o, но здесь, на SO, это неоднозначно, потому что есть еще один пакет с именем h2o, который не имеет ничего общего с машинным обучением. - EngrStudent 02.10.2020

comment

ОК - в таком случае, что вы на самом деле спрашиваете? Кажется, вы задали концептуальный вопрос о стратифицированном разделении ваших данных без какого-либо конкретного примера того, что вы имеете в виду, а затем спросили, есть ли способ сделать это?! Ответ: Да, наверное!. Если вам нужен более подробный ответ, нам, вероятно, нужен более подробный вопрос. - Allan Cameron 02.10.2020

comment

@AllanCameron - мне нужно сделать это в рамках. Это вообще не концептуально. Фреймворк указан, задача указана, ответа нет ни в сети, ни в хелп-документах (которые я могу найти). - EngrStudent 02.10.2020

comment

EngrStudent, ваш обновленный вопрос делает вещи намного яснее и делает ваш вопрос намного лучше. Я удалил свой отрицательный голос и закрыл голосование. Спасибо - Allan Cameron 02.10.2020

comment

@EngrStudent Я не думаю, что вам нужно применять стратифицированную выборку перед обучением модели, учитывая, что h2o имеет разные параметры для fold_assignment (один из них стратифицированный). Подробнее об этом здесь - anddt 02.10.2020

comment

Если я не выполняю фолды, потому что каждый отдельный запуск вычислений занимает намного больше времени, чем я могу себе позволить, то назначение фолдов не помогает. Я делаю разделение поезд/валид, потому что должен, а не потому, что хочу. Я предпочитаю 5-кратное резюме, но я не могу себе это позволить прямо сейчас. - EngrStudent 02.10.2020

Как выполнить стратифицированное случайное разбиение в R h2o.ai?

Вопросы по теме