Web使用搜索引擎中的种子URL进行爬网

时间:2017-08-20 14:28:05

标签: search web-crawler search-engine google-search information-retrieval

我需要知道在搜索引擎给出的结果之上构建爬虫是否值得。

通过这种方式,对于给定的查询,从搜索引擎中抓取N个URL并将其输入到爬虫中以查找与搜索相关的更多相关页面。是否有任何科学论文/实验声称这样做有助于收集更多相关页面而不是仅从搜索引擎获取URL?

1 个答案:

答案 0 :(得分:0)

如果我理解正确,你会重建搜索引擎,因为它的作用是首先通过搜索获得最相关/相关的结果。而且,虽然您没有直接提及您的搜索引擎,我猜这是谷歌,我建议您在尝试其他任何事情之前使用高级搜索选项。 Google提供API用于执行搜索,您可以在系统中使用这些搜索。但是,如果这种方法不适合你,可以抓取谷歌搜索结果,甚至可以执行自定义搜索(例如按网站,术语等过滤结果),但谷歌对此不满意,最终会阻止你的通话。我建议你尝试一下它的开放API ...