如何使用常见爬网在网络上搜索特定关键字查询?

时间:2017-12-11 20:54:41

标签: web-crawler common-crawl

Common Crawl是一个非盈利的第三方网络搜索引擎。 http://commoncrawl.org

我正在查看用于搜索给定域的公共抓取的API。

如何针对给定的搜索字词搜索常见抓取?

1 个答案:

答案 0 :(得分:0)

您目前无法搜索网页内容。有一个使用CC数据集的共同搜索,但我不确定它是如何最新的。 如果您正在寻找一组有限的关键字,您可以使用Mapreduce或Spark来过滤页面,但如果您正在处理一组开放或任意的查询,那么最好的方法是将数据集自己索引到Elasticsearch或SOLR中。 / p>