Я пытаюсь использовать LibSVM в Weka. В моем наборе данных .arff у меня есть строка @attribute attr1. Но когда я проверил возможности LibSVM, я понял, что LibSVM не поддерживает атрибуты String. Есть ли способ преобразовать строку в числовое значение, чтобы я мог сохранить ее в своем наборе данных.
Строковые атрибуты в файле .arff для LibSVM, Weka.
Ответы (1)
Если это действительно строка (а не номинальное значение), вы можете использовать StringToWordVector
Преобразует атрибуты String в набор атрибутов, представляющих информацию о вхождении слова (в зависимости от токенизатора) из текста, содержащегося в строках. Набор слов (атрибутов) определяется первым отфильтрованным пакетом (обычно обучающими данными).
Это действительно зависит от того, что вы хотите получить от String. Если это не «нормальный» текст, а что-то вроде последовательностей ДНК, вам понадобится что-то совершенно другое.
person
Sentry
schedule
07.01.2015
Спасибо. Я решил убрать текстовую функцию из своей обучающей модели. Но в любом случае спасибо
- person star2014; 13.01.2015
Из интереса, что это был за строковый атрибут? мне любопытно
- person Sentry; 13.01.2015
Я работаю над проектами с открытым исходным кодом, я хотел использовать описание ошибки из системы отслеживания ошибок как одну из функций модели поезда :)
- person star2014; 14.01.2015
Тогда вектор StringToWord мог бы помочь. В качестве альтернативы вы можете вручную составить список важных терминов и извлечь их, например, содержится ли термин `` Linux '' в качестве двоичной функции или нет.
- person Sentry; 14.01.2015