。这是一个基本问题。我正在尝试将文本文件分类为20个不同的类。
因此我有一个项目结构,其中包含一个名为train,test的文件夹。 在火车文件夹中我有20个不同的文件夹,每个文件夹再次有许多与该特定类相关的文件.ex:天气,无神论等等
我现在已经为整个火车文件夹创建了一个train.arff文件。当数据可视化时,我只能看到两个属性。 提供了以下链接:
我的疑问是如何查看这些文件夹下的各种文件并删除停用词,标点符号,stemmin。如何进行预处理。如果有一些资源可用,请建议并提供必要的链接
答案 0 :(得分:0)
当我第一次使用Weka进行文本分类时,我发现下面的视频非常有用。你可能想看看。
您可能希望使用StringToWordVector过滤器来查看每个单词作为属性的效果,这在第一个和最后一个视频中确实有详细描述。在过滤器设置中,您可以提供一个停用词列表,并在每次运行中选择是否使用它。与词干相同,你也可以改变它。这个documentation和视频可以让您轻松理解它。