应用错误收集

时间：2015-04-29 06:59:59

标签： weka text-classification

。这是一个基本问题。我正在尝试将文本文件分类为20个不同的类。

因此我有一个项目结构，其中包含一个名为train，test的文件夹。在火车文件夹中我有20个不同的文件夹，每个文件夹再次有许多与该特定类相关的文件.ex：天气，无神论等等

我现在已经为整个火车文件夹创建了一个train.arff文件。当数据可视化时，我只能看到两个属性。提供了以下链接：

我的疑问是如何查看这些文件夹下的各种文件并删除停用词，标点符号，stemmin。如何进行预处理。如果有一些资源可用，请建议并提供必要的链接

答案 0 :(得分：0)

当我第一次使用Weka进行文本分类时，我发现下面的视频非常有用。你可能想看看。

您可能希望使用StringToWordVector过滤器来查看每个单词作为属性的效果，这在第一个和最后一个视频中确实有详细描述。在过滤器设置中，您可以提供一个停用词列表，并在每次运行中选择是否使用它。与词干相同，你也可以改变它。这个documentation和视频可以让您轻松理解它。