我正在建立一些蜘蛛,并且很好奇,如果在抓取页面上达成共识,robots.txt不允许这样做似乎阻止了这些页面在搜索引擎中显示。
例如,我注意到https://www.barneys.com/robots.txt之类的一些零售商店会阻止某些排序的页面
Disallow: /*%7C*
Disallow: *product.maxSalePrice%7C1*
Disallow: /search*
https://www.barneys.com/category/sale/N-1d0527n?Ns=product.maxFinalPrice%7C1
除非我错过了他们阻止它的另一个原因(不能消耗更多的资源,可以吗?),除了自动防刮擦措施之外,有人会认为我会遇到问题吗?每30分钟抓取其中一两个页面?我想双方最好这样做,而不是刮擦每个产品页面并自己对结果进行排序。一个或两个特定字词的搜索页面会有所不同吗?因为通常也不允许这样做?
我知道这将取决于每个站点,但是我很好奇,看看任何人可能有什么见识。
答案 0 :(得分:0)
如果网站上有站点地图-您可以通过解析robots.txt
Disallow: /checkout*
Disallow: *product.maxSalePrice%7C1*
Sitemap: https://www.barneys.com/sitemap_index.xml
您可以使用SitemapSpider
。