Строковые атрибуты в файле .arff для LibSVM, Weka.

Я пытаюсь использовать LibSVM в Weka. В моем наборе данных .arff у меня есть строка @attribute attr1. Но когда я проверил возможности LibSVM, я понял, что LibSVM не поддерживает атрибуты String. Есть ли способ преобразовать строку в числовое значение, чтобы я мог сохранить ее в своем наборе данных.


person star2014    schedule 03.01.2015    source источник


Ответы (1)


Если это действительно строка (а не номинальное значение), вы можете использовать StringToWordVector

Преобразует атрибуты String в набор атрибутов, представляющих информацию о вхождении слова (в зависимости от токенизатора) из текста, содержащегося в строках. Набор слов (атрибутов) определяется первым отфильтрованным пакетом (обычно обучающими данными).

Это действительно зависит от того, что вы хотите получить от String. Если это не «нормальный» текст, а что-то вроде последовательностей ДНК, вам понадобится что-то совершенно другое.

person Sentry    schedule 07.01.2015
comment
Спасибо. Я решил убрать текстовую функцию из своей обучающей модели. Но в любом случае спасибо - person star2014; 13.01.2015
comment
Из интереса, что это был за строковый атрибут? мне любопытно - person Sentry; 13.01.2015
comment
Я работаю над проектами с открытым исходным кодом, я хотел использовать описание ошибки из системы отслеживания ошибок как одну из функций модели поезда :) - person star2014; 14.01.2015
comment
Тогда вектор StringToWord мог бы помочь. В качестве альтернативы вы можете вручную составить список важных терминов и извлечь их, например, содержится ли термин `` Linux '' в качестве двоичной функции или нет. - person Sentry; 14.01.2015