RSS屏幕刮刀

时间:2010-03-02 09:28:49

标签: python rss

任何人都可以指向一个现成的RSS屏幕抓取工具,最好是用Python来获取全文RSS提要吗?

3 个答案:

答案 0 :(得分:3)

有一个很好的列表here,其中提到了Feed Parser,您可以这样使用:

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                      "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

然后您可以执行以下操作:

for item in feed["items"]:
    print item["title"]

答案 1 :(得分:1)

答案 2 :(得分:0)

很抱歉,但它在python中不存在,尽管它们在php中存在。欢迎您使用和改进我制作的名称。虽然它没有完成所有网站,但它是一个基于配方的系统,目前只处理NYT,WSJ和经济学家。我正在研究一种全包算法,但这是一项重大任务。它包括对不同类型的html和xml的大量分析。即使是上面提到的3个站点,在如何刮取他们的站点方面也有截然不同的算法WSJ是迄今为止最复杂的。他们用如此多无用的废话搞砸他们的HTML,主要是为了阻止你。

这是我正在讨论的程序,它需要lxml,但它解释了自述文件中的所有内容。它读取配置文件,解析部分rss提要,获取链接,然后抓取这些链接,最终制定一个RSS 2.0 xml文件。其中我主要转换为电子书为我的kindle。我使用lxml,BeautifulSoup和feedparser。

http://tinyurl.com/yh3s9pa

您还可以在配方上查看caliber项目,该项目使用与我的方法类似的方法。