我有一个每周收到的xml文件。该文件包含我的客户可用的大约40个“活动”。 40我只需要8.为了减少处理文件所需的时间,我需要选择8个“活动”,然后将它们组合成一个xml文件。单个文件将具有以下结构:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Data>
<Activity> ... </Activity>
<Activity> ... </Activity>
<Activity> ... </Activity>
</Data>
Activity标记将包含大约20 - 30K行。当我完全展开文件时,我们有大约1.5MM的行。这就是为什么我急于限制我必须处理的东西。我的一位同事编写了一个java脚本,为树中的每个Activity创建一个新的xml文件。对于每个文件,他已根据标记命名该文件。生成的文件看起来像123456.xml。
我需要做的是根据文件名选择我需要的7-8个文件,将文件合并为一个xml,然后将文件保存为whatever.xml。我将有一个文件,其中可以包含每周处理所必需的ActivityID。
我希望以相对快速的方式执行此操作,因为我目前正在xml中搜索Activity ID,然后手动构建生成的文件。
此外,生成的文件需要压缩,但这是一个很好的功能,可以手动完成。
我愿意接受包括选择语言在内的建议。
答案 0 :(得分:0)
我会使用python和BeautifulSoup进行此操作 - 简单的xml解析,用于压缩等的好库。而BeautifulSoup也可以很好地处理大文件。
祝你好运!