如何从搜索结果受到限制的网站上抓取所有数据?

时间:2019-06-25 18:51:29

标签: web-scraping

例如,当我们从网站上抓取数据时,我们通常会对它的基础数据库感兴趣,例如,我可能想提取Rightmove中列出的所有London属性。

但是,通常网站只返回满足查询条件的所有结果的子集。 例如,如果您通过提交查询“伦敦”来搜索Rightmove中列出的所有伦敦属性:

https://www.rightmove.co.uk/property-for-sale/find.html?searchType=SALE&locationIdentifier=REGION%5E87490&insId=1&radius=0.0&minPrice=&maxPrice=&minBedrooms=&maxBedrooms=&displayPropertyType=&maxDaysSinceAdded=&_includeSSTC=on&sortByPriceDescending=&primaryDisplayPropertyType=&secondaryDisplayPropertyType=&oldDisplayPropertyType=&oldPrimaryDisplayPropertyType=&newHome=&auction=false

尽管它说大约有43,936个结果,但它只返回一个子集(从网站上可以看到),它返回42页,每页24个结果。另外,如果您通过更改网址参数来修改网址,则限制仍然存在。

在我看来,针对此类情况的唯一解决方案是明智地优化查询。例如搜索伦敦的一个较小区域或按精炼的邮政编码搜索。例如,我们可以提交以下查询来代替“伦敦”:

search for post code E1 
search for post code E2
search for post code E3
....

但是,这种简单的查询计划可能并不总是有效,我们可能需要进一步完善。

这个设计查询计划的过程既耗时又困难。

是否有更好的解决方案或工具来促进这一过程?

0 个答案:

没有答案