Я делаю латентный анализ Дирихле для некоторых исследований и продолжаю сталкиваться с проблемой. Большинство программ lda требует, чтобы документы были в формате doclines, то есть в формате CSV или другом файле с разделителями, в котором каждая строка представляет весь документ. Однако для lda-c от Blei и программного обеспечения динамической тематической модели требуется данные должны быть в формате: [M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]
, где [M]
— это количество уникальных терминов в документе, а [количество], связанное с каждым термином, — это количество раз, которое этот термин появляется в документе. Обратите внимание, что [term_1]
— это целое число, которое индексирует термин; это не строка.
Кто-нибудь знает утилиту, которая позволит мне быстро конвертировать в этот формат? Спасибо.