使用Weka进行分类

时间:2013-01-28 02:36:32

标签: java classification weka

我是Weka的新手!

我的目的是将现有文章分为两类:教育或娱乐。

我已经在教育类别中有400篇文章,在娱乐中有400篇文章。

那么如何为Weka创建arff输入文件?或Weka的任何其他解决方案?

(抱歉我的英文不好,谢谢你)

2 个答案:

答案 0 :(得分:0)

This article显示了如何将CSV格式转换为ARFF,前提是您的数据集是CSV格式。

但是,如果您还没有数据集,则需要事先执行大量任务。

答案 1 :(得分:0)

尽管这似乎很漫长,但实际上您可以做到。您尝试做的所有事情都与“文本挖掘”主题有关。我认为您可以从this link中学到很多东西。另外,我认为可能对您有用的信息是:

  1. 首先,以每种文本格式打开文件,然后将其粘贴到电子表格程序(例如Excel)的一行中。在其旁边的列中,键入文档类型(“教育”或“娱乐”)。您总共有800行。

  2. 在Excel的“文件”菜单中单击“另存为”,然后将文件类型选择为“ .csv”。并将其另存为“ .csv”。 (在“ Excel”中单击“保存”后,他询问您是否要将工作簿另存为“ Excel”。我认为是“否”。

  3. 要在“ Weka”中打开“ .csv”文件:在“ Weka”中选择“打开文件”,将.csv标记为文件类型,然后选择“ .csv”文件。

  4. 从“过滤器->选择”列表中选择“ StringToVector”。您可以检查this address进行必要的参数设置。

  5. 您将在Weka中使用“保存”命令以“ .arff”格式获取所需文件。

StringToVector_in_Weka

我希望它会有所帮助。祝你好运。