如何使用Rapidminer处理XML文件进行分类

时间:2013-07-04 07:13:08

标签: machine-learning classification rapidminer

我是Rapidminer的新手。我有很多XML文件,我想根据关键字手动对这些文件进行分类。然后我想训练像Naive Bayer和SVM这样的分类器,并使用交叉验证器计算它们的性能。

请您告诉我不同​​的步骤吗?

我是否需要使用像tokenising,TFIDF等文本处理活动?

2 个答案:

答案 0 :(得分:0)

步骤会像这样

  1. 循环文件 - 即迭代文件夹中的所有文件并依次阅读每个文件。
  2. 对于每个文件
    • 以文件形式阅读。
    • 使用包含合适的XPath查询的Extract InformationCut Document等运算符对其进行标记,以输出与文档中提取的信息对应的行。
  3. 创建包含所有行的文档向量。这是使用TF-IDF或其他方法的地方。选择取决于手头的问题,TF-IDF是一种常见的选择,重要的是给予经常出现在相对较少数量的文档中的令牌更多的权重。
  4. 构建模型并使用交叉验证来估算未见数据的性能。
  5. 我已将link添加到您可以用作此基础的流程中。它读取包含XML文件的RapidMiner存储库,因此是使用文本处理技术处理XML文档的一个很好的示例。显然,您必须对您的案例进行一些大的修改。

    希望它有所帮助。

答案 1 :(得分:0)

回复可能为时已晚。但它可以帮助其他人。有一个名为'文本挖掘扩展程序的扩展程序,我使用的是版本6.1.0。所以你可以去RapidMiner>帮助>更新并安装此扩展程序。它将从一个目录中获取所有文件。它有各种你可以使用的文本挖掘算法

另外,我发现这个教程视频也可能对你有所帮助 https://www.youtube.com/watch?v=oXrUz5CWM4E