我的情况是我必须从网页收集信息。我需要提取HTML表格的任何封装的td标签
在这种特殊情况下,我唯一能做这个过程的就是PowerShell。
有一种简单的方法只使用PowerShell吗?
答案 0 :(得分:2)
我认为你必须有主要选择:
以下是两种方法:
正则表达式:
$data = (new-object System.Net.WebClient).DownloadString('http://www.amazon.com')
[regex]::Matches($data, '<td.*?>(.+)</td>') | % {$_.Captures[0].Groups[1].value}
DOM:
$ie = new-object -com InternetExplorer.Application
$ie.Navigate('http://www.amazon.com')
$ie.Document.getElementsByTagName('td')
答案 1 :(得分:0)
$ie = new-object -com "InternetExplorer.Application"
$ie.navigate("<app url>")
$doc = $ie.Document
$doc.getElementByID("<some id>")
您可以在此处阅读更多信息 - http://msdn.microsoft.com/en-us/magazine/cc337896.aspx
希望这有帮助。