Question

我的情况是我必须从网页收集信息。我需要提取HTML表格的任何封装的td标签

在这种特殊情况下，我唯一能做这个过程的就是PowerShell。

有一种简单的方法只使用PowerShell吗？

Answer 1

我认为你必须有主要选择：

使用正则表达式。
使用DOM。

以下是两种方法：

正则表达式：

$data = (new-object System.Net.WebClient).DownloadString('http://www.amazon.com')
[regex]::Matches($data, '<td.*?>(.+)</td>') | % {$_.Captures[0].Groups[1].value}

DOM：

$ie = new-object -com InternetExplorer.Application
$ie.Navigate('http://www.amazon.com')
$ie.Document.getElementsByTagName('td')

Answer 2

$ie = new-object -com "InternetExplorer.Application"
$ie.navigate("<app url>")
$doc = $ie.Document
$doc.getElementByID("<some id>")

您可以在此处阅读更多信息 - http://msdn.microsoft.com/en-us/magazine/cc337896.aspx

希望这有帮助。

从Powershell中的td标记中提取值

2 个答案: