Я использую java-библиотеку deeplearning4j для создания векторной модели абзаца (doc2vec) размерности 100. Я использую текстовый файл. В нем около 17 миллионов строк, а размер файла - 330 МБ. Я могу обучить модель и вычислить вектор абзаца, что дает достаточно хорошие результаты.
Проблема в том, что когда я пытаюсь сохранить модель (записывая на диск) с помощью WordVectorSerializer.writeParagraphVectors (метод dl4j), она занимает около 20 ГБ места. И около 30 ГБ, когда я использую собственный сериализатор Java.
Я думаю, что размер модели слишком велик для такого количества данных. Является ли размер модели 20 ГБ разумным для текстовых данных размером 300 МБ?
Комментарии также приветствуются от людей, которые использовали вектор doc2vec / абзаца в другой библиотеке / языке.
Спасибо!