在Powershell中查找HTML文件中的<img/>标记

时间:2015-02-13 10:51:22

标签: html parsing powershell collections

我想在Powershell中创建一个简单的代码,只检查HTMl文件的文件夹中没有使用的图像。所以我想在本地打开每个HTML文件(而不是通过URI)并检索所有标签。听起来不太可怕。

我完成了我的研究并且进展顺利,我想出了这段代码:

Foreach ($imageFile in $imageFiles){
    Foreach ($file in $HTMLFiles)
    {
        Write-Debug "Processing: $file"                    
        $html = New-Object -ComObject "HTMLFile"
        $source = Get-Content -Path $file.FullName -Raw
        $html.IHTMLDocument2_write($source);       
        $nbImages = $html.Images.length        

        ForEach ($i in $html.Images){
            #$i.getTags("src")
        }          
    } 
}

问题1:我正在处理我(重新)转换为HTML文件的HTML文件,以便访问有用的方法。有一个简单的方法吗?

问题2和问题:我无法找到一种方法来浏览我的图像标记集合。我怎么做? 我已经检查了我的代码在源代码中找到的图像,并且它是正确的。我只是想从集合本身获取信息。

感谢您的帮助,我真的被困在这里了!

1 个答案:

答案 0 :(得分:0)

您可以尝试使用/<img \w*>/g之类的正则表达式来选择所有<img>代码