从Powershell中的td标记中提取值

时间:2012-04-27 18:43:55

标签: powershell

我的情况是我必须从网页收集信息。我需要提取HTML表格的任何封装的td标签

在这种特殊情况下,我唯一能做这个过程的就是PowerShell。

有一种简单的方法只使用PowerShell吗?

2 个答案:

答案 0 :(得分:2)

我认为你必须有主要选择:

  1. 使用正则表达式。
  2. 使用DOM。
  3. 以下是两种方法:

    正则表达式:

    $data = (new-object System.Net.WebClient).DownloadString('http://www.amazon.com')
    [regex]::Matches($data, '<td.*?>(.+)</td>') | % {$_.Captures[0].Groups[1].value}
    

    DOM:

    $ie = new-object -com InternetExplorer.Application
    $ie.Navigate('http://www.amazon.com')
    $ie.Document.getElementsByTagName('td')
    

答案 1 :(得分:0)

$ie = new-object -com "InternetExplorer.Application"
$ie.navigate("<app url>")
$doc = $ie.Document
$doc.getElementByID("<some id>")

您可以在此处阅读更多信息 - http://msdn.microsoft.com/en-us/magazine/cc337896.aspx

希望这有帮助。