Создание файла ARFF из CSV вручную

Я хотел создать файл arff на основе этого CSV из Kaggle

https://www.kaggle.com/c/titanic/download/train.csv

вот часть файла arff, который я сделал

@relation titanic

@attribute PassengerId numeric
@attribute Survived {0,1}
@attribute Pclass {1,2,3}
@attribute Name string
@attribute Sex {male,female}
@attribute Age numeric
@attribute SibSp numeric
@attribute Parch numeric
@attribute Ticket string
@attribute Fare numeric
@attribute Cabin string
@attribute Embarked {C,Q,S}

@data
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S

Но когда я загружаю его в Weka, он возвращает мне эту ошибку:

nominal value not declared in header, read Token[C85], line 18 % the second line of my data 

что не так в моих декларациях?


person Ghilas BELHADJ    schedule 07.05.2015    source источник


Ответы (1)


Проблема в том, что внутри имени "Cumings, Mrs. John Bradley (Florence Briggs Thayer)" стоит запятая. Weka анализирует это как два поля, несмотря на двойные кавычки.

Вы можете попробовать удалить такие запятые (то есть запятые в двойных кавычках) с помощью регулярного выражения.

person lanenok    schedule 11.05.2015