任何人都可以指向一个现成的RSS屏幕抓取工具,最好是用Python来获取全文RSS提要吗?
答案 0 :(得分:3)
有一个很好的列表here,其中提到了Feed Parser,您可以这样使用:
import feedparser
python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
"RecentChanges?action=rss_rc"
feed = feedparser.parse( python_wiki_rss_url )
然后您可以执行以下操作:
for item in feed["items"]:
print item["title"]
答案 1 :(得分:1)
答案 2 :(得分:0)
很抱歉,但它在python中不存在,尽管它们在php中存在。欢迎您使用和改进我制作的名称。虽然它没有完成所有网站,但它是一个基于配方的系统,目前只处理NYT,WSJ和经济学家。我正在研究一种全包算法,但这是一项重大任务。它包括对不同类型的html和xml的大量分析。即使是上面提到的3个站点,在如何刮取他们的站点方面也有截然不同的算法WSJ是迄今为止最复杂的。他们用如此多无用的废话搞砸他们的HTML,主要是为了阻止你。
这是我正在讨论的程序,它需要lxml,但它解释了自述文件中的所有内容。它读取配置文件,解析部分rss提要,获取链接,然后抓取这些链接,最终制定一个RSS 2.0 xml文件。其中我主要转换为电子书为我的kindle。我使用lxml,BeautifulSoup和feedparser。
您还可以在配方上查看caliber项目,该项目使用与我的方法类似的方法。