R使用多个XML文件构建xml语料库

时间:2015-11-02 15:06:29

标签: xml r xpath text-mining corpus

我正在尝试处理文本挖掘目的的xml文件集。有没有办法将多个文件导入到一个可以在以后使用XPath的xml对象/数据库中?

这是一件聪明的事吗?我发现了一个类似的报告,将xml文件导入其他数据格式,例如dataframes或tm Corpus对象Parsing multiple xml files to a Single Dateframe in R,但是将它们保持为XML格式应该保持整洁,维护对上下文的访问,因为带注释的语料库可以有深层树因为很好的查询语言,使处理更简单?

非常感谢您的咨询。

1 个答案:

答案 0 :(得分:1)

我发现这个名为mergex.exe的小程序很有用。它在命令行将几个XML文件合并为一个文件,非常直观和简单。