В моем наборе данных 11 классов / категорий. И для каждого класса есть свои экземпляры. Мне нужно знать атрибуты / слова, извлеченные Weka для каждой категории, и числовое значение, присвоенное каждому атрибуту. Есть ли способ сделать это?
Как получить атрибуты по классам из Weka
Ответы (1)
Это пример формата файла arff для Weka TRAINING и CLASSIFY:
В данном случае я говорю о части файла, использованной в Semeval 2014 Соревнование по испанскому ...
@relation Task10EnglishS2014
@attribute PathLenAlign numeric
@attribute ResAlign numeric
@attribute LcAlign numeric
@attribute WupAlign numeric
@attribute Res numeric
@attribute Lc numeric
@attribute DiceSimilarityAttribute numeric
@attribute NumericEvaluation numeric
@data
1,9.5852985,3.637587,1,8.0142254,3.637587,0.75,5.000
1,9.20881283333333,3.637587,1,8.3916004,3.637587,1,5.000
0.625,2.812914,2.754695,0.761905,2.812914,2.754695,0.5,0.292893218813452,0.300
...
по частям:
@relation Task10EnglishS2014
@relation + название набора или эксперимента
@attribute LcAlign numeric
@attribute + имя атрибута + тип атрибута
@data
отсюда, чтобы запустить экземпляры или вектор значений для каждого ввода.
Это обучающий набор, который используется для обучения модели для классификации новых экземпляров. В Weka Explorer нам нужно загрузить этот файл во вкладке Preprocess. На вкладке «Классификация» вам нужно выбрать классификатор и установить перекрестную проверку с 10 сгибами и нажать кнопку «Начать». Это сгенерирует обученную модель.
Файл классификации arff должен иметь следующую структуру:
@relation Task10EnglishS2014
@attribute PathLenAlign numeric
@attribute ResAlign numeric
@attribute LcAlign numeric
@attribute WupAlign numeric
@attribute Res numeric
@attribute Lc numeric
@attribute DiceSimilarityAttribute numeric
@attribute NumericEvaluation numeric
@data
1,9.5852985,3.637587,1,8.0142254,3.637587,0.75,?
1,9.20881283333333,3.637587,1,8.3916004,3.637587,1,?
0.625,2.812914,2.754695,0.761905,2.812914,2.754695,0.5,0.292893218813452,?
...
? Символ означает, что это значение, которое нужно классифицировать.
Для них вы должны выбрать опцию: «Поставляемый набор тестов» и выбрать файл для классификации, а в «Параметры режима ...» выбрать «Вывод прогнозов», затем щелкнуть правой кнопкой мыши по модели и выбрать «Переоценить модель на текущем наборе тестов. ". На правой панели были визуализированы результаты.