从使用不寻常标记格式的网页中提取数据

时间:2012-06-01 19:05:46

标签: powershell

注意:必须在powershell中完成。
我搜索并搜索了这个我似乎无法解决的小问题。 该页面是一个不寻常的xml形式,看起来像这样

<?xml version="1.0" encoding="utf-8" ?> 
<string xmlns="http://foo.bar.moo.org/">WILBER</string>

这是页面上唯一的内容。唯一可以改变的部分是WILBER可能是另一回事。

我试过了:

$site="http://lalaland.org/Getmoocow?input=$foo_name"
$data = (new-object System.Net.WebClient).DownloadString($site)
$foo = [regex]::Matches($data, '<string.*?>(.+)</string>') | % {$_.Captures[0].Groups[1].value} 

和一些变化,但没有运气。我唯一需要的是字符串标签之间的内容

1 个答案:

答案 0 :(得分:1)

所以,鉴于你提供的字符串,

[xml]$x = @"
>> <?xml version="1.0" encoding="utf-8" ?>
>> <string xmlns="http://foo.bar.moo.org/">WILBER</string>
>> "@
>>
$x.string.'#text'
WILBER