Question

我正在建立一些蜘蛛，并且很好奇，如果在抓取页面上达成共识，robots.txt不允许这样做似乎阻止了这些页面在搜索引擎中显示。

例如，我注意到https://www.barneys.com/robots.txt之类的一些零售商店会阻止某些排序的页面

Disallow: /*%7C*
Disallow: *product.maxSalePrice%7C1*
Disallow: /search*

除非我错过了他们阻止它的另一个原因（不能消耗更多的资源，可以吗？），除了自动防刮擦措施之外，有人会认为我会遇到问题吗？每30分钟抓取其中一两个页面？我想双方最好这样做，而不是刮擦每个产品页面并自己对结果进行排序。一个或两个特定字词的搜索页面会有所不同吗？因为通常也不允许这样做？

我知道这将取决于每个站点，但是我很好奇，看看任何人可能有什么见识。

Answer 1

如果网站上有站点地图-您可以通过解析robots.txt

中定义的sitemap.xml来接收产品链接。

Disallow: /checkout*
Disallow: *product.maxSalePrice%7C1*

Sitemap: https://www.barneys.com/sitemap_index.xml

您可以使用SitemapSpider。