应用错误收集

在所有Common Crawl WARC文件中搜索单词

时间：2015-06-23 11:45:43

标签： amazon-s3 solr common-crawl warc large-data

我想在常见抓取的所有WARC文件（近36K warc文件）中搜索一个单词（例如公司名称），并在其HTML源内容中获取所有具有该公司名称的网址。

我想将这些WARC文件保存在S3中。我只需要那些WARC文件中的URL。

是否有可用的模块或预先构建的软件包？

我可以使用Solr索引吗？（但可能需要更多记忆）

先谢谢。

0 个答案:

没有答案