Я хочу сгруппировать коллекцию резюме в соответствии с областью образования, поэтому я преобразовываю резюме (CV) из неструктурированного формата в полуструктурированный формат и беру данные из тегов образования,
<education>data data data</education>
в результате для каждого резюме есть концепции-кандидаты (область образования), например:
resume1: computer science, computer security
resume2: CSE, Networking
затем я конвертирую эти данные в vector space model
и сохраняю их на хеш-карте (в зависимости от занятости каждого термина в резюме, т.е. либо в ‹1,0>, либо из него)
resume1 [1, 0, 1]
resume2 [0, 1, 1]
теперь я хочу сгруппировать эти данные, чтобы каждое резюме содержало ИТ-поле, чтобы оно находилось в одном кластере, и, например, резюме Art в одном кластере
Я читал о Weka
, который используется для кластеризации данных. Однако Weka поддерживает только arff
форматов ввода. Как я мог записать свои данные, которые я сохранил в хэш-карте в файле arff??!! и Как Weka выполняет расчеты только для числовых данных, т.е. (появление термина в резюме), для кластеризации текстовых данных, т.е. (название резюме)?!! извините, если мои вопросы бессмысленны, но я совершенно новичок в Weka, надеюсь, вы можете мне помочь ...
ИЗМЕНИТЬ
Я записал свои данные в файл arff (только векторные данные) и, НАКОНЕЦ, после того, как я прочитал несколько вопросов из stack overFlow, теперь я могу использовать WEKA, и я применяю SimpleKMeans
кластеризацию, и вот мой результат
Instance 1 -> Cluster 4
Instance 2 -> Cluster 0
Instance 3 -> Cluster 0
Instance 4 -> Cluster 0
Instance 5 -> Cluster 0
Instance 6 -> Cluster 0
Instance 7 -> Cluster 3
Instance 8 -> Cluster 0
Instance 9 -> Cluster 2
Instance 10 -> Cluster 4
Мой новый вопрос
вместо просмотра экземпляра № я хочу отобразить имя резюме Если я напишу имя резюме в качестве атрибута помимо векторных данных, могу ли я просмотреть имя резюме вместо экземпляра № ?? И если да, как я мог это сделать
0.6, 0.1, 0.0, 0.5 , resume_name
!! потому что я хочу кластеризовать свои данные, чтобы на выходе былоcluster1: CV1, CV2.... cluster2 CV4,CV7
и т. д., но алгоритм кластеризации. будут использовать числовые данные?!! - person Abeer zaroor   schedule 06.03.2016