应用错误收集

将包含单词及其频率的文本文件转换为适合weka

时间：2015-05-25 23:26:45

标签： nlp classification weka arff document-classification

我有4个文本文件用于表示经济，政治，健康和体育类别。每个文件包含400个阿拉伯语单词以及用于表示每个类别的每个单词的频率。

ex：health.txt包含

اصابة113

6غذائية

6طبيعي 。

我使用Simple CI创建了arff。输出arff文件如下： @relation C__finaloutput

@attribute text string

@attribute @@ class @@ {经济，健康，政治，运动}

@data

'إصابة113 \ r \ nغذائية6 \ r \ nطبيعي6 \ r \ nمريضا6 \ r \ n'，健康

问题是：1.how weka会将arff文件中的数字识别为每个单词的频率吗？

2.如何使用SMO分类器或其他分类器，如j48，它们不处理字符串属性？

1 个答案:

答案 0 :(得分：0)

Weka可以从资源管理器加载CSV文件＆＃34;打开文件＆＃34;对话框，from the command line或in code。在上面，您的文件包含空格或制表符作为分隔符，而不是逗号，但CSVLoader也可以处理它。请参阅the docs for CSVLoader中描述的-F选项。或者，您可以使用sed -e 's/ /,/ health.txt > health.csv等各种技术将空格（或制表符）转换为逗号。