Преобразование файла .txt в arff

У меня есть текстовый файл (.txt), в каждой строке которого есть твит. Каждый твит отделяется новой строкой. Я хочу загрузить файл в WEKA, но он поддерживает только .arff в качестве входных данных. Я намерен сгруппировать твиты, используя некоторые методы кластеризации, так как мне преобразовать текстовый файл в arff.

Вот скриншот данных. введите здесь описание изображения


person Kira    schedule 25.04.2014    source источник


Ответы (1)


WEKA также поддерживает CSV. Вы можете преобразовать текстовый файл в CSV с помощью кода или вручную, я рекомендую код. Затем просто импортируйте его в WEKA. После импорта, и если вы действительно хотите, конвертируйте его в .arff.

Просто посмотрите, как отформатирован ваш текстовый файл. Затем напишите небольшую программу, которая анализирует файл и ставит , запятые для разделения значений. Обязательно оставьте заголовки, WEKA их использует.

person apxcode    schedule 25.04.2014
comment
Я преобразовал txt-файл в csv с помощью Excel и попытался загрузить его, но он показывает file is not recognized as a CSV Data File - person Kira; 25.04.2014
comment
В моих данных нет заголовков, каждая строка — это просто твит, это куча твитов в текстовом файле. - person Kira; 25.04.2014
comment
Можете ли вы опубликовать файл в формате CSV? Картинка не помешала бы. - person apxcode; 25.04.2014
comment
я отредактировал вопрос, скриншот - это вопрос - person Kira; 25.04.2014
comment
Это ваша проблема, в вашем CSV нет запятых, поэтому на самом деле это не файл со значениями, разделенными запятыми (CSV). - person apxcode; 25.04.2014
comment
Я загрузил текстовый файл в excel и преобразовал его в csv, и вот что я получил - person Kira; 25.04.2014
comment
Я предполагаю, что вам нужно каждое из этих предложений как целая строка, верно? Затем в конце каждого предложения поставьте запятую. - person apxcode; 25.04.2014
comment
Но тогда, если в самом твите есть запятая, это испортит этот твит. - person Kira; 25.04.2014
comment
WEKA подберет запятую и разрешит вам использовать файл, но запятой в твите не будет. - person apxcode; 26.04.2014