应用错误收集

Web使用搜索引擎中的种子URL进行爬网

时间：2017-08-20 14:28:05

标签： search web-crawler search-engine google-search information-retrieval

我需要知道在搜索引擎给出的结果之上构建爬虫是否值得。

通过这种方式，对于给定的查询，从搜索引擎中抓取N个URL并将其输入到爬虫中以查找与搜索相关的更多相关页面。是否有任何科学论文/实验声称这样做有助于收集更多相关页面而不是仅从搜索引擎获取URL？

1 个答案:

答案 0 :(得分：0)

如果我理解正确，你会重建搜索引擎，因为它的作用是首先通过搜索获得最相关/相关的结果。而且，虽然您没有直接提及您的搜索引擎，我猜这是谷歌，我建议您在尝试其他任何事情之前使用高级搜索选项。 Google提供API用于执行搜索，您可以在系统中使用这些搜索。但是，如果这种方法不适合你，可以抓取谷歌搜索结果，甚至可以执行自定义搜索（例如按网站，术语等过滤结果），但谷歌对此不满意，最终会阻止你的通话。我建议你尝试一下它的开放API ...