来自rss的scrawl新闻网站与scrapy

时间:2017-07-24 10:36:08

标签: python django scrapy rss

我想阅读一些新闻网站rss feed,例如nytimes.com rss:

<item>
    <title>
        White House Signals Acceptance of Russia Sanctions Bill
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/us/politics/trump-russia-
        sanctions.html?partner=rss&emc=rss
    </link>
    <pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate>
</item>
<item>
    <title>
        News Analysis: For Trump and Putin, Sanctions Are a Setback 
        Both Sought to Avoid
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/world/europe/trump-putin-
        sanctions-hacking.html?partner=rss&emc=rss
    </link>
    <pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate>
</item>

找到我尚未阅读的新项目,并为每个商品商店链接,标题和GET链接抓取其中的一些内容。 我的问题是,为了这个目的,我可以使用scrapy,如果是,那该怎么办?

1 个答案:

答案 0 :(得分:1)

是的,您可以将Scrapy用于此目的。您可以使用几种方法来构建解决方案:

  • 从旨在解析XML Feed的XMLFeedSpider开始。在提供的链接中有一个简单的例子。
  • 要关注各篇文章的链接,从中提取一些数据并将其添加到从XML Feed中提取的数据中,请使用requests chaining的概念。
  • 您没有说明应该如何实现我尚未阅读的项目。如果您的意思是不返回先前运行中已经删除的项目,则可以使用scrapy-deltafetch包。

现在你只需将这些部分放在一起。