我是Weka和文本分类的初学者。我在java程序中使用weka是因为我想用它来分类我的网站帖子的标题。例如:
"如何从youtube下载视频","最佳Android手机2013","微软今年宣布了一款新的平板电脑"等...
我有23个类别:运动,科技,科学,健康等......
对于每个类别,我找到了5个网站,我从中获得了我的培训文本。例如,engadget.com文章的文本内容在Weka中添加了Techonology类别。
现在问题就在于此。我应该在Weka中添加什么样的文本?
到目前为止,我获得了所有网站的文章标题,将它们分隔为单词之间的空格,并将单数单词添加到类别(unigrams)。例如,如果标题是"如何修复计算机"这就是我所做的:
添加"如何"对于技术,添加"是"技术,添加"修复"对技术等等....(显然我使用一个禁用词列表来删除无用的单词)。
但我得到的结果并不好。
根据您的经验,我该怎么办?我应该:
a)将文章标题的全文添加到类别中; b)将文章内容的全文添加到类别中; c)将文章内容的文本分成单数词(unigrams)并将其添加到一个类别中; d)还有什么?
谢谢。