处理weka中string属性的%符号

时间:2014-11-04 17:51:58

标签: weka arff

我有一个像这样的

的arrf文件
@relation training_set
@attribute URL string
@attribute DOI numeric
@attribute ISBN numeric
@attribute Conclusions numeric

@attribute Source_Type {Scientific, Non_Scientific}
@data
http://www.nejm.org/doi/full/10.1056/nejmra1002842 , 0 , 0 , 1 , 0 , Scientific 
http://www.plosone.org/article/info%3adoi%2f10.1371%2fjournal.pone.0014270#pone-0014270-t003 , 1 , 0 , 1 , 0 , Scientific 

我在将此文件加载到weka时遇到问题,因为我有一个"%"登录网址数据。我知道%在weka中被视为注释但有没有办法获取这种字符串?我没有将URL作为名义数据,因为它是训练集中的标识符?

1 个答案:

答案 0 :(得分:0)

通过将字符串包装在单引号中,我能够将文件成功加载到Weka中(我还添加了另一个属性来匹配数据结构):

@relation training_set
@attribute URL string
@attribute DOI numeric
@attribute ISBN numeric
@attribute Conclusions numeric
@attribute Binary numeric
@attribute Source_Type {Scientific, Non_Scientific}
@data
'http://www.nejm.org/doi/full/10.1056/nejmra1002842' , 0 , 0 , 1 , 0 , Scientific 
'http://www.plosone.org/article/info%3adoi%2f10.1371%2fjournal.pone.0014270#pone-0014270-t003' , 1 , 0 , 1 , 0 , Scientific 

希望这有帮助!