例如,当我们从网站上抓取数据时,我们通常会对它的基础数据库感兴趣,例如,我可能想提取Rightmove中列出的所有London属性。
但是,通常网站只返回满足查询条件的所有结果的子集。 例如,如果您通过提交查询“伦敦”来搜索Rightmove中列出的所有伦敦属性:
尽管它说大约有43,936个结果,但它只返回一个子集(从网站上可以看到),它返回42页,每页24个结果。另外,如果您通过更改网址参数来修改网址,则限制仍然存在。
在我看来,针对此类情况的唯一解决方案是明智地优化查询。例如搜索伦敦的一个较小区域或按精炼的邮政编码搜索。例如,我们可以提交以下查询来代替“伦敦”:
search for post code E1
search for post code E2
search for post code E3
....
但是,这种简单的查询计划可能并不总是有效,我们可能需要进一步完善。
这个设计查询计划的过程既耗时又困难。
是否有更好的解决方案或工具来促进这一过程?