应用错误收集

时间：2013-07-04 07:13:08

标签： machine-learning classification rapidminer

我是Rapidminer的新手。我有很多XML文件，我想根据关键字手动对这些文件进行分类。然后我想训练像Naive Bayer和SVM这样的分类器，并使用交叉验证器计算它们的性能。

请您告诉我不同的步骤吗？

我是否需要使用像tokenising，TFIDF等文本处理活动？

答案 0 :(得分：0)

步骤会像这样

循环文件 - 即迭代文件夹中的所有文件并依次阅读每个文件。
对于每个文件
- 以文件形式阅读。
- 使用包含合适的XPath查询的Extract Information或Cut Document等运算符对其进行标记，以输出与文档中提取的信息对应的行。
创建包含所有行的文档向量。这是使用TF-IDF或其他方法的地方。选择取决于手头的问题，TF-IDF是一种常见的选择，重要的是给予经常出现在相对较少数量的文档中的令牌更多的权重。
构建模型并使用交叉验证来估算未见数据的性能。

我已将link添加到您可以用作此基础的流程中。它读取包含XML文件的RapidMiner存储库，因此是使用文本处理技术处理XML文档的一个很好的示例。显然，您必须对您的案例进行一些大的修改。

希望它有所帮助。

答案 1 :(得分：0)

回复可能为时已晚。但它可以帮助其他人。有一个名为＆＃39;文本挖掘扩展程序的扩展程序，我使用的是版本6.1.0。所以你可以去RapidMiner＆gt;帮助＆gt;更新并安装此扩展程序。它将从一个目录中获取所有文件。它有各种你可以使用的文本挖掘算法

另外，我发现这个教程视频也可能对你有所帮助 https://www.youtube.com/watch?v=oXrUz5CWM4E