Прогноз WEKA с несколькими файлами ARFF

Я новичок в WEKA и ARFF файлах и сейчас работаю с их GUI. Я не понимаю, как мне сделать прогноз (классификацию) с несколькими ARFF файлами?

Например, файл A имеет 3 атрибута: "ID", "attribute_1", "attribute_2"; в то время как файл B имеет 2 атрибута, "ID", "Scores" (основной атрибут, используемый для прогнозирования).

Проблема в том, что каждая строка данных в file A уникальна, но данные в B повторяются. Оба файла связаны своим "ID". Другими словами, file B хранит набор "scores" для каждого элемента в file A.

Есть ли какие-нибудь предложения о том, как я могу объединить file A и B вместе? Или есть какой-нибудь способ, которым я мог бы обойти WEKA, чтобы заставить его работать?


person Piiinkyy    schedule 13.11.2015    source источник


Ответы (1)


Weka нужна одна «сплющенная» таблица, то есть arff-файл. Этот процесс еще называют денормализацией. Существует пакет weka (Denormalize), который содержит фильтр для выполнения этой операции.

Вот пример того, как транзакционные данные могут быть сглажены здесь: https://weka.wikispaces.com/How+can+I+use+transactional+data+in+Weka%3F

Перед использованием фильтра вам нужно будет объединить два файла вместе. Если у вас есть csv-файлы или что-то подобное, вы можете добиться этого с помощью Excel, см., Например:

https://superuser.com/questions/420635/how-do-i-join-two-worksheets-in-excel-as-i-would-in-sql

person hatze    schedule 18.11.2015