根据条件组合多个xml文件

时间:2014-02-17 17:44:38

标签: xml language-agnostic

我有一个每周收到的xml文件。该文件包含我的客户可用的大约40个“活动”。 40我只需要8.为了减少处理文件所需的时间,我需要选择8个“活动”,然后将它们组合成一个xml文件。单个文件将具有以下结构:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Data>
     <Activity> ... </Activity>
     <Activity> ... </Activity>
     <Activity> ... </Activity>
</Data>

Activity标记将包含大约20 - 30K行。当我完全展开文件时,我们有大约1.5MM的行。这就是为什么我急于限制我必须处理的东西。我的一位同事编写了一个java脚本,为树中的每个Activity创建一个新的xml文件。对于每个文件,他已根据标记命名该文件。生成的文件看起来像123456.xml。

我需要做的是根据文件名选择我需要的7-8个文件,将文件合并为一个xml,然后将文件保存为whatever.xml。我将有一个文件,其中可以包含每周处理所必需的ActivityID。

我希望以相对快速的方式执行此操作,因为我目前正在xml中搜索Activity ID,然后手动构建生成的文件。

此外,生成的文件需要压缩,但这是一个很好的功能,可以手动完成。

我愿意接受包括选择语言在内的建议。

1 个答案:

答案 0 :(得分:0)

我会使用python和BeautifulSoup进行此操作 - 简单的xml解析,用于压缩等的好库。而BeautifulSoup也可以很好地处理大文件。

祝你好运!

http://www.crummy.com/software/BeautifulSoup/

http://docs.python.org/2/library/zipfile