Встраивание Word2Vec и CNN на примере H2O R

Мне интересно, можно ли предоставить какой-либо r образец кода для использования word2vec и cnn для классификации текста в версии H2O DeepWater R? Очень мало документации по mexnetR или h2o deep water r

Я уже использовал пакет версии h2o r для обучения моей word2vec word embedding словарной справочной таблице и векторной матрице слов документа. Мне интересно, есть ли какой-либо образец кода для объединения таблицы поиска и исходного необработанного текста в модель классификации CNN с использованием mxnetR (настраиваемый итератор) или с использованием h2o r для непосредственного построения CNN.

Я спрашиваю, потому что, если я конвертирую все данные в формат массива сразу, на моей машине не хватит памяти для его поддержки.


person Weiye Deng    schedule 03.11.2017    source источник


Ответы (1)


Если RAM является ограничением (должен быть очень большой корпус), тогда использование mx.io.CSVIter может быть подходящим решением. CSV может быть записан партиями и будет иметь ограниченный объем памяти во время обучения. При использовании vanilla mx.io.CSVIter, вероятно, потребуется выполнить изменение формы, чтобы добавить к функциям X пакет X seq.length в качестве начального преобразования данных в сети.

Другой вариант - изучить вложения внутри модели, например, с помощью этой демонстрации: http://dmlc.ml/rstats/2017/10/11/rnn-bucket-mxnet-R.html, который также предоставляет пример настраиваемого iter с сегментированием, который также ограничивает потребление оперативной памяти.

person jeremiedb    schedule 29.11.2017