解析XML并查找字符串的所有实例

时间:2012-08-14 16:42:24

标签: xml powershell csv

我正在使用类似于以下内容的xml文件。然而,它已经成千上万次了。我将使用powershell来解析xml

我需要找到字符串“c:\”显示的所有任务的任务名称。虽然如果字符串可能只显示一个区域,这可能很容易,但它可以完全显示在整个任务中。在这个特殊的任务中,我把C:\放在了4个不同的时间。

我希望获得任务名称的输出,以及引用给定路径的位置......

<Task ID="00000000" Name="Task name goes here" Active="0" NextEID="22" CacheNames="random" AR="0" TT="COS">
        <Info>
            <Description>
            </Description>
            <Notes>
            </Notes>
        </Info>
        <Parameters>
            <moreParameters>C:\pathGoesHere</moreParameters>
        </Parameters>
        <Schedules/>
        <Source HostID="0" Type="FileSystem" Path="C:\path" FileMask="[Parm:parameter].txt" DeleteOrig="0" NewFilesOnly="0" SearchSubdirs="0" Unzip="0" RetryIfNoFiles="0" UseDefRetryCount="1" UseDefRetryTimeoutSecs="1" UseDefRescanSecs="1" UDMxFi="1" UDMxBy="1" ID="11"/>
        <For ID="13">
            <Destination HostID="000000" Type="siLock" FolderID="" FolderType="4" FolderName="Home/[Parm:parameter]/" Subject="" FileName="[OnlyName]_[YYYY][MM][DD].bai" UseOrigName="0" ForceDir="1" OverwriteOrig="1" UseRelativeSubdirs="1" Zip="0" UseDefRetryCount="1" UseDefRetryTimeoutSecs="1" UseDefUser="1" UseDefClientCert="1" ID="12"/>
            <If ID="14">
                <When>
                    <Criteria>
                        <comp a="[ErrorCodeFile]" test="NEQ" b="0"/>
                    </Criteria>
                    <UpdOrig Action="d" ID="15"/>
                    <Destination HostID="0000000000" Type="Share" Path="C:\anotherCPath" FileName="[Parm:parameter]_[YYYY][MM][DD].bai" UseOrigName="0" ForceDir="1" OverwriteOrig="1" UseRelativeSubdirs="1" Zip="0" UseDefRetryCount="1" UseDefRetryTimeoutSecs="1" ID="17"/>
                </When>
            </If>
        </For>
        <If ID="19">
            <When>
                <Criteria>
                    <comp a="[ErrorCodeTask]" test="NNE" b="0"/>
                </Criteria>
                <Email HostID="385322183" Subject="[TaskStatus]-[TaskName]" Message="" AddressTo="email@address.com" Attachment = "C:\path\" UseDefRetryCount="1" UseDefRetryTimeoutSecs="1" ID="20"/>
            </When>
        </If>
    </Task>

2 个答案:

答案 0 :(得分:7)

假设XML位于file.xmlXPath之后返回Name属性: 字符串“C:\”可以位于:

//Task[contains(text(), "C:\") or //*[contains(text(), "C:\")] or //*[@*[contains(., "C:\")]]]/@Name

说明:

  • Task标记
  • 的文字
  • 任何孩子的文字
  • 任何孩子的任何属性

PowerShell示例:

#read xml
$xml = [xml](gc -Encoding utf8 .\test.xml) 

#process it
$xml | 
   Select-Xml '//Task[contains(text(), "C:\") or //*[contains(text(), "C:\")] or //*[@*[contains(., "C:\")]]]/@Name' | 
   % { $_.Node."#text" }

答案 1 :(得分:1)

当您转换为[xml]时,您可以使用非常好的“属性”语法访问所有内容。具有相同标记的多个节点将作为数组公开。然后,您可以使用InnerXml属性来获取定义当前节点的原始XML字符串。然后,您只需要对搜索字符串进行简单的“类似”匹配。

假设您在一个文件中的单个“任务”节点下有多个“任务”节点:

$tasks = [xml] (Get-Content .\Tasks.xml)
$tasks.Tasks.Task |?{ $_.InnerXml -like '*C:\*' } | select -expand Name

或者,如果多个文件中的每个文件都有一个Task节点:

dir *.xml |%{ [xml] (Get-Content $_) } |?{ $_.Task.InnerXml -like '*C:\*' } | select -expand Name

这些将为您提供任务名称。获取包含搜索字符串的节点中的每一行都有点棘手。这是一个hacky正则表达式方法(我知道我知道,不要用正则表达式解析XML ...)。同样,假设每个XML文件中有一个Task节点:

$taskXmls = dir *.xml |%{ [xml](Get-Content $_) }

foreach($taskXml in $taskXmls)
{
   if($taskXml.Task.InnerXml -like '*C:\*')
   {
       $hits = [Regex]::Matches($taskXml.Task.InnerXml, '<[^<]*C:\\[^>]*>')
       $hitList = $null
       if($hits)
       {
            $hitList = $hits | select -expand Value
       }
       new-object psobject -prop @{TaskName = $taskXml.Task.Name; Hits = $hitList}
   }
}