应用错误收集

如何从搜索结果受到限制的网站上抓取所有数据？

时间：2019-06-25 18:51:29

标签： web-scraping

例如，当我们从网站上抓取数据时，我们通常会对它的基础数据库感兴趣，例如，我可能想提取Rightmove中列出的所有London属性。

但是，通常网站只返回满足查询条件的所有结果的子集。例如，如果您通过提交查询“伦敦”来搜索Rightmove中列出的所有伦敦属性：

https://www.rightmove.co.uk/property-for-sale/find.html?searchType=SALE&locationIdentifier=REGION%5E87490&insId=1&radius=0.0&minPrice=&maxPrice=&minBedrooms=&maxBedrooms=&displayPropertyType=&maxDaysSinceAdded=&_includeSSTC=on&sortByPriceDescending=&primaryDisplayPropertyType=&secondaryDisplayPropertyType=&oldDisplayPropertyType=&oldPrimaryDisplayPropertyType=&newHome=&auction=false

尽管它说大约有43,936个结果，但它只返回一个子集（从网站上可以看到），它返回42页，每页24个结果。另外，如果您通过更改网址参数来修改网址，则限制仍然存在。

在我看来，针对此类情况的唯一解决方案是明智地优化查询。例如搜索伦敦的一个较小区域或按精炼的邮政编码搜索。例如，我们可以提交以下查询来代替“伦敦”：

search for post code E1 
search for post code E2
search for post code E3
....

但是，这种简单的查询计划可能并不总是有效，我们可能需要进一步完善。

这个设计查询计划的过程既耗时又困难。

是否有更好的解决方案或工具来促进这一过程？

0 个答案:

没有答案