关于出于搜寻引擎目的而抓取robots.txt不允许的“排序”页面的想法?

时间:2019-08-15 13:09:01

标签: web-scraping scrapy

我正在建立一些蜘蛛,并且很好奇,如果在抓取页面上达成共识,robots.txt不允许这样做似乎阻止了这些页面在搜索引擎中显示。

例如,我注意到https://www.barneys.com/robots.txt之类的一些零售商店会阻止某些排序的页面

Disallow: /*%7C*
Disallow: *product.maxSalePrice%7C1*
Disallow: /search*

https://www.barneys.com/category/sale/N-1d0527n?Ns=product.maxFinalPrice%7C1

除非我错过了他们阻止它的另一个原因(不能消耗更多的资源,可以吗?),除了自动防刮擦措施之外,有人会认为我会遇到问题吗?每30分钟抓取其中一两个页面?我想双方最好这样做,而不是刮擦每个产品页面并自己对结果进行排序。一个或两个特定字词的搜索页面会有所不同吗?因为通常也不允许这样做?

我知道这将取决于每个站点,但是我很好奇,看看任何人可能有什么见识。

1 个答案:

答案 0 :(得分:0)

如果网站上有站点地图-您可以通过解析robots.txt

中定义的sitemap.xml来接收产品链接。
Disallow: /checkout*
Disallow: *product.maxSalePrice%7C1*

Sitemap: https://www.barneys.com/sitemap_index.xml

您可以使用SitemapSpider