标签: web-crawler common-crawl
Common Crawl是一个非盈利的第三方网络搜索引擎。 http://commoncrawl.org
我正在查看用于搜索给定域的公共抓取的API。
如何针对给定的搜索字词搜索常见抓取?
答案 0 :(得分:0)
您目前无法搜索网页内容。有一个使用CC数据集的共同搜索,但我不确定它是如何最新的。 如果您正在寻找一组有限的关键字,您可以使用Mapreduce或Spark来过滤页面,但如果您正在处理一组开放或任意的查询,那么最好的方法是将数据集自己索引到Elasticsearch或SOLR中。 / p>