Question

任何人都可以指向一个现成的RSS屏幕抓取工具，最好是用Python来获取全文RSS提要吗？

Answer 1

有一个很好的列表here，其中提到了Feed Parser，您可以这样使用：

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                      "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

然后您可以执行以下操作：

for item in feed["items"]:
    print item["title"]

Answer 2

feedparser.org很棒

Answer 3

很抱歉，但它在python中不存在，尽管它们在php中存在。欢迎您使用和改进我制作的名称。虽然它没有完成所有网站，但它是一个基于配方的系统，目前只处理NYT，WSJ和经济学家。我正在研究一种全包算法，但这是一项重大任务。它包括对不同类型的html和xml的大量分析。即使是上面提到的3个站点，在如何刮取他们的站点方面也有截然不同的算法WSJ是迄今为止最复杂的。他们用如此多无用的废话搞砸他们的HTML，主要是为了阻止你。

这是我正在讨论的程序，它需要lxml，但它解释了自述文件中的所有内容。它读取配置文件，解析部分rss提要，获取链接，然后抓取这些链接，最终制定一个RSS 2.0 xml文件。其中我主要转换为电子书为我的kindle。我使用lxml，BeautifulSoup和feedparser。

http://tinyurl.com/yh3s9pa

您还可以在配方上查看caliber项目，该项目使用与我的方法类似的方法。

RSS屏幕刮刀

3 个答案: