我有4个文本文件用于表示经济,政治,健康和体育类别。每个文件包含400个阿拉伯语单词以及用于表示每个类别的每个单词的频率。
ex:health.txt包含
اصابة113
6غذائية
6طبيعي 。
我使用Simple CI创建了arff。输出arff文件如下: @relation C__finaloutput
@attribute text string
@attribute @@ class @@ {经济,健康,政治,运动}
@data
'إصابة113 \ r \ nغذائية6 \ r \ nطبيعي6 \ r \ nمريضا6 \ r \ n',健康
问题是:1.how weka会将arff文件中的数字识别为每个单词的频率吗?
2.如何使用SMO分类器或其他分类器,如j48,它们不处理字符串属性?
答案 0 :(得分:0)
Weka可以从资源管理器加载CSV文件"打开文件"对话框,from the command line或in code。在上面,您的文件包含空格或制表符作为分隔符,而不是逗号,但CSVLoader也可以处理它。请参阅the docs for CSVLoader中描述的-F
选项。或者,您可以使用sed -e 's/ /,/ health.txt > health.csv
等各种技术将空格(或制表符)转换为逗号。