Question

我想阅读一些新闻网站rss feed，例如nytimes.com rss：

<item>
    <title>
        White House Signals Acceptance of Russia Sanctions Bill
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/us/politics/trump-russia-
        sanctions.html?partner=rss&emc=rss
    </link>
    <pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate>
</item>
<item>
    <title>
        News Analysis: For Trump and Putin, Sanctions Are a Setback 
        Both Sought to Avoid
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/world/europe/trump-putin-
        sanctions-hacking.html?partner=rss&emc=rss
    </link>
    <pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate>
</item>

找到我尚未阅读的新项目，并为每个商品商店链接，标题和GET链接抓取其中的一些内容。我的问题是，为了这个目的，我可以使用scrapy，如果是，那该怎么办？

Answer 1

是的，您可以将Scrapy用于此目的。您可以使用几种方法来构建解决方案：

从旨在解析XML Feed的XMLFeedSpider开始。在提供的链接中有一个简单的例子。
要关注各篇文章的链接，从中提取一些数据并将其添加到从XML Feed中提取的数据中，请使用requests chaining的概念。
您没有说明应该如何实现我尚未阅读的项目。如果您的意思是不返回先前运行中已经删除的项目，则可以使用scrapy-deltafetch包。

现在你只需将这些部分放在一起。

来自rss的scrawl新闻网站与scrapy

1 个答案: