我是Rapidminer的新手。我有很多XML文件,我想根据关键字手动对这些文件进行分类。然后我想训练像Naive Bayer和SVM这样的分类器,并使用交叉验证器计算它们的性能。
请您告诉我不同的步骤吗?
我是否需要使用像tokenising,TFIDF等文本处理活动?
答案 0 :(得分:0)
步骤会像这样
Extract Information
或Cut Document
等运算符对其进行标记,以输出与文档中提取的信息对应的行。我已将link添加到您可以用作此基础的流程中。它读取包含XML文件的RapidMiner存储库,因此是使用文本处理技术处理XML文档的一个很好的示例。显然,您必须对您的案例进行一些大的修改。
希望它有所帮助。
答案 1 :(得分:0)
回复可能为时已晚。但它可以帮助其他人。有一个名为'文本挖掘扩展程序的扩展程序,我使用的是版本6.1.0。所以你可以去RapidMiner>帮助>更新并安装此扩展程序。它将从一个目录中获取所有文件。它有各种你可以使用的文本挖掘算法
另外,我发现这个教程视频也可能对你有所帮助 https://www.youtube.com/watch?v=oXrUz5CWM4E