不止一次解析XML文件并将结果合并在一起

时间:2015-03-24 21:46:45

标签: xml perl filter merge libxml2

我有一个子程序,它解析2个XML,一个是原始日志数据,另一个是过滤器。我想删除其中一个过滤器中找不到的log.xml中的所有内容。

以下是我的日志文件示例:

<log>
  <message>
    <type>warning</type>
    <from>cody</from>
    <content>cant use XML::Merge</content>
  </message>
  <message>
    <type>error</type>
    <from>cody</from>
    <content>some text here</content>
  </message>
  <message>
    <type>warning</type>
    <from>charlie</from>
    <content>ruff</content>
  </message>
  <message>
    <type>error</type>
    <from>cody</from>
    <content>an error</content>
  </message>
</log>

使用如下所示的filter.xml:

<filters>
  <filter>
    <type>warning</type>
    <content>XML::Merge</content>
  </filter>
  <filter>
    <type>error</type>
  </filter>
</filters>

这将导致包含内容“XML :: Merge”的所有警告都被保留,并且还会导致所有错误。我的尝试是使用第一个过滤器进行第一次传递,这导致所有其他消息节点被切断,因此我在生成的XML文件中没有错误。然后,下一个过滤器将切断那些应该从第一个过滤器中保留的过滤器。这是我的代码,如果filter.xml中只有一个过滤器,则该代码很有效。

sub include {
  my $filterParser = XML::LibXML->new->parse_file($filterXML);
  my $logParser = XML::LibXML->new->parse_file($xml);

  foreach my $filter ( $filterParser->findnodes('/filters/filter') ) {
    foreach my $msg ( $logParser->findnodes('/log/message') ) {
        foreach my $msgNode ($msg->childNodes) {
            foreach my $filterNode ($filter->childNodes) {
                if ($msgNode->localName eq $filterNode->localName) {
                    my $m = $msgNode->textContent;
                    my $f = $filterNode->textContent;
                    if (index($m, $f) == -1) {
                        $msg->parentNode->removeChild($msg);
                    }
                }   
            }
        }
    }
  } 
  $logParser->toFile($xml);
}

我理解为什么它会输出一个带有多个过滤器的空白文档,但需要帮助才能将第一个传递保存到某处,然后使用原始XML与第二个过滤器进行传递,依此类推,直到没有过滤器为止左,然后将所有内容合并为一个XML,没有重复的消息。

1 个答案:

答案 0 :(得分:1)

我想我可能很难将这个问题归咎于这个问题,但希望有一天这个淬火和答案会帮助别人。无论如何,我已经用一些蛮力完成了我的目标...我最终为每个过滤器做了一个传递,并添加了我想要保存到列表中的节点(我需要一个标志,因为有些过滤器有多个单一标准)。在对所有消息处理完所有过滤器之后,我循环遍历log.xml并查找保存在列表中的每个节点。如果log.xml中的节点与列表中的任何节点不匹配,我将从树中删除它。

sub include {
  my $filterParser = XML::LibXML->new->parse_file($filterXML);
  my $logParser = XML::LibXML->new->parse_file($xml);

  my $remove = true;
  my @nodes;

  foreach my $msg ( $logParser->findnodes('/TdsMainLog/message') ) {
    foreach my $filter ( $filterParser->findnodes('/filters/filter') ) {
        foreach my $msgNode ($msg->childNodes) {
            foreach my $filterNode ($filter->childNodes) {  
                if ($msgNode->localName eq $filterNode->localName) {
                    my $m = $msgNode->textContent;
                    my $f = $filterNode->textContent;
                    if ( index($m, $f) != -1 ) {
                        #mark for keeping
                        $remove = false;
                    } 
                    else { $remove = true; } #else unmark
                }
            }
        }
        if ($remove eq false) { push (@nodes, $msg); }
        $remove = true;
    }
  }

  foreach my $msg ( $logParser->findnodes('/TdsMainLog/message') ) {
    $remove = true;
    foreach my $node (@nodes) {
        if ($msg->isSameNode($node)) {
            $remove = false;
        }
    }
    if ($remove eq true) { $msg->parentNode->removeChild($msg); }
  }
    $logParser->toFile($xml);
  }