将包含单词及其频率的文本文件转换为适合weka

时间:2015-05-25 23:26:45

标签: nlp classification weka arff document-classification

我有4个文本文件用于表示经济,政治,健康和体育类别。每个文件包含400个阿拉伯语单词以及用于表示每个类别的每个单词的频率。

ex:health.txt包含

اصابة113

6غذائية

6طبيعي 。

我使用Simple CI创建了arff。输出arff文件如下: @relation C__finaloutput

@attribute text string

@attribute @@ class @@ {经济,健康,政治,运动}

@data

'إصابة113 \ r \ nغذائية6 \ r \ nطبيعي6 \ r \ nمريضا6 \ r \ n',健康

问题是:1.how weka会将arff文件中的数字识别为每个单词的频率吗?

2.如何使用SMO分类器或其他分类器,如j48,它们不处理字符串属性?

1 个答案:

答案 0 :(得分:0)

Weka可以从资源管理器加载CSV文件"打开文件"对话框,from the command linein code。在上面,您的文件包含空格或制表符作为分隔符,而不是逗号,但CSVLoader也可以处理它。请参阅the docs for CSVLoader中描述的-F选项。或者,您可以使用sed -e 's/ /,/ health.txt > health.csv等各种技术将空格(或制表符)转换为逗号。