我正在寻找一个获取RSS订阅源的脚本,并将所有帖子的内容输出到一个html文件中。是否有现成的例子呢?谷歌搜索主要提供下载所有封套的脚本,而不是每个帖子的html /正文,这就是我追求的......
答案 0 :(得分:1)
阅读RSS提要已完成,例如Net.WebClient
。由于RSS提要本身就是XML,因此可以很容易地对其进行操作。 Powershell得到了ConvertTo-HTML
,这使得转换为HTML变得简单。从Google新闻获取新闻标题就像这样,
$webclient = new-object system.net.webclient
$rssFeed = [xml]$webclient.DownloadString('http://news.google.com/?output=rss')
$rssFeed.rss.channel.item | Select-Object title -First 5 | ConvertTo-Html
使用Out-File
将HTML保存到您想要的任何文件中。
使用Select-Object
$rssFeed.rss.channel.item | select title,description -first 5
要查看有哪些字段,请使用Get-Member
或直接阅读XML Feed:
$rssFeed.rss.channel.item[0] | gm -MemberType property