我正在使用WEKA工具进行文本分类,我必须将纯文本文件转换为ARFF格式。但是,我不知道该怎么做。有人可以帮我把文本文件转换成ARFF格式吗?
感谢Renklauf的回复,
我没有理解这些观点“由于像记事本这样的文本编辑器只允许有限数量的列,所以你需要得到像Notepad ++这样的东西,以适应一行中的所有内容。”你可以简单地解释一下......
假设文本数据就像一个简单的运动文章,如
“篮球是一项团队运动,目标是通过一个水平定位的篮子射球,同时遵循一系列规则。通常,两队五名球员在一个标记的矩形球场上打球,每个球场都有一个篮子篮球是世界上最受欢迎和广受欢迎的运动之一“......
这是我的文本文档,我想将其转换为arff格式..之后我需要使用该arff格式文件进行SVM文本分类..
答案 0 :(得分:2)
对于文档分类任务,每个文档都被视为属性,必须用引号括起来。假设您有10个体育文章的语料库,这些文章被标记为亲洋基队或亲红袜队的分类器,自动将体育文章归类为亲洋基队或亲红袜队。您需要获取每个文档,将其括在引号中,将其放在一行上,然后将{yankees,red_sox}属性值放在引号括起的字符串之后。
@relation yankeesOrRedSox
@attribute article string
@attribute yankeesOrSox { yankees, red_sox }
@data
"text of article 1 here", yankees
.
.
.
"text of article 10 here", red_sox
将文章放在一行上是关键。当我开始使用Weka进行文本分类时,这一点最初让我感到非常沮丧。由于像记事本这样的文本编辑器只允许有限数量的列,因此您需要获得类似Notepad ++的内容以适应一行中的所有内容。 Notepad ++有一个Join Lines功能,允许您在一行上放置大量文本。
希望这会有所帮助。