我有一个像这样的
的arrf文件@relation training_set
@attribute URL string
@attribute DOI numeric
@attribute ISBN numeric
@attribute Conclusions numeric
@attribute Source_Type {Scientific, Non_Scientific}
@data
http://www.nejm.org/doi/full/10.1056/nejmra1002842 , 0 , 0 , 1 , 0 , Scientific
http://www.plosone.org/article/info%3adoi%2f10.1371%2fjournal.pone.0014270#pone-0014270-t003 , 1 , 0 , 1 , 0 , Scientific
我在将此文件加载到weka时遇到问题,因为我有一个"%"登录网址数据。我知道%在weka中被视为注释但有没有办法获取这种字符串?我没有将URL作为名义数据,因为它是训练集中的标识符?
答案 0 :(得分:0)
通过将字符串包装在单引号中,我能够将文件成功加载到Weka中(我还添加了另一个属性来匹配数据结构):
@relation training_set
@attribute URL string
@attribute DOI numeric
@attribute ISBN numeric
@attribute Conclusions numeric
@attribute Binary numeric
@attribute Source_Type {Scientific, Non_Scientific}
@data
'http://www.nejm.org/doi/full/10.1056/nejmra1002842' , 0 , 0 , 1 , 0 , Scientific
'http://www.plosone.org/article/info%3adoi%2f10.1371%2fjournal.pone.0014270#pone-0014270-t003' , 1 , 0 , 1 , 0 , Scientific
希望这有帮助!