как записать данные хэш-карты в файл arff

Я хочу сгруппировать коллекцию резюме в соответствии с областью образования, поэтому я преобразовываю резюме (CV) из неструктурированного формата в полуструктурированный формат и беру данные из тегов образования,

<education>data data data</education>

в результате для каждого резюме есть концепции-кандидаты (область образования), например:

resume1: computer science, computer security 

resume2: CSE, Networking 

затем я конвертирую эти данные в vector space model и сохраняю их на хеш-карте (в зависимости от занятости каждого термина в резюме, т.е. либо в ‹1,0>, либо из него)

resume1  [1, 0, 1]
resume2 [0, 1, 1]

теперь я хочу сгруппировать эти данные, чтобы каждое резюме содержало ИТ-поле, чтобы оно находилось в одном кластере, и, например, резюме Art в одном кластере

Я читал о Weka, который используется для кластеризации данных. Однако Weka поддерживает только arff форматов ввода. Как я мог записать свои данные, которые я сохранил в хэш-карте в файле arff??!! и Как Weka выполняет расчеты только для числовых данных, т.е. (появление термина в резюме), для кластеризации текстовых данных, т.е. (название резюме)?!! извините, если мои вопросы бессмысленны, но я совершенно новичок в Weka, надеюсь, вы можете мне помочь ...

ИЗМЕНИТЬ

Я записал свои данные в файл arff (только векторные данные) и, НАКОНЕЦ, после того, как я прочитал несколько вопросов из stack overFlow, теперь я могу использовать WEKA, и я применяю SimpleKMeans кластеризацию, и вот мой результат

Instance 1 -> Cluster 4 
Instance 2 -> Cluster 0 
Instance 3 -> Cluster 0 
Instance 4 -> Cluster 0 
Instance 5 -> Cluster 0 
Instance 6 -> Cluster 0 
Instance 7 -> Cluster 3 
Instance 8 -> Cluster 0 
Instance 9 -> Cluster 2 
Instance 10 -> Cluster 4

Мой новый вопрос

вместо просмотра экземпляра № я хочу отобразить имя резюме Если я напишу имя резюме в качестве атрибута помимо векторных данных, могу ли я просмотреть имя резюме вместо экземпляра № ?? И если да, как я мог это сделать


person Abeer zaroor    schedule 04.03.2016    source источник
comment
В чем проблема записи этих данных в файл arff?   -  person Has QUIT--Anony-Mousse    schedule 05.03.2016
comment
мммм, да, вы могли бы сказать это .... Я хочу записать свои данные, которые я сохранил в хэш-карте (каждое резюме со своим вектором)   -  person Abeer zaroor    schedule 06.03.2016
comment
Да, так что: сделай это! ARFF — это текстовый формат, вы пишете его как текстовый файл — и вы точно знаете, как писать текстовый файл?   -  person Has QUIT--Anony-Mousse    schedule 06.03.2016
comment
да, я узнал об этом отсюда ссылка.. .. но я должен также написать имя резюме в качестве атрибута, чтобы данные были такими 0.6, 0.1, 0.0, 0.5 , resume_name !! потому что я хочу кластеризовать свои данные, чтобы на выходе было cluster1: CV1, CV2.... cluster2 CV4,CV7 и т. д., но алгоритм кластеризации. будут использовать числовые данные?!!   -  person Abeer zaroor    schedule 06.03.2016