我想阅读一些新闻网站rss feed,例如nytimes.com rss:
<item>
<title>
White House Signals Acceptance of Russia Sanctions Bill
</title>
<link>
https://www.nytimes.com/2017/07/23/us/politics/trump-russia-
sanctions.html?partner=rss&emc=rss
</link>
<pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate>
</item>
<item>
<title>
News Analysis: For Trump and Putin, Sanctions Are a Setback
Both Sought to Avoid
</title>
<link>
https://www.nytimes.com/2017/07/23/world/europe/trump-putin-
sanctions-hacking.html?partner=rss&emc=rss
</link>
<pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate>
</item>
找到我尚未阅读的新项目,并为每个商品商店链接,标题和GET链接抓取其中的一些内容。 我的问题是,为了这个目的,我可以使用scrapy,如果是,那该怎么办?
答案 0 :(得分:1)
是的,您可以将Scrapy用于此目的。您可以使用几种方法来构建解决方案:
XMLFeedSpider
开始。在提供的链接中有一个简单的例子。scrapy-deltafetch
包。现在你只需将这些部分放在一起。