在r和快速minner中执行元数据提取和标记

时间:2016-02-11 06:02:01

标签: r rapidminer text-analysis

我有一个问题陈述来执行从电源演示文件中提取数据元素并使用R或Rapid minner执行文档标记。所以我需要帮助来学习如何在两个工具中读取ppt文件然后执行文本处理。

1 个答案:

答案 0 :(得分:0)

刚刚注意到我在你的重复问题上回答了这个问题,所以我在那里删除我的答案并在此处添加,以便对其他用户更有帮助。

我最近在RapidMiner支持网站上回答了一个非常类似的问题。 Reading Powerpoint with RapidMiner

我会在这里重现答案: PPPTX文件只是ZIP目录,其中包含XML文档,告诉Powerpoint在哪里放置内容的每个部分。 所有幻灯片内容都存储在: / PPT /幻灯片/ slide1.xml,slide2.xml等 (其他目录可用于幻灯片备注和其他内容)。

要使用RapidMiner读取它,只需使用运算符Loop Zip-File Entries并将参数internal目录设置为ppt / slides,这将循环遍历上述所有xml文件。

在嵌套运算符内部,使用Read Document运算符设置为Extract Text Only&内容类型为XML。这应该提取演示文稿中每张幻灯片的内容。

这回答了你问题的第一部分。对于第二部分,一旦有文本,就可以使用任何RapidMiner文本处理操作符。