在所有Common Crawl WARC文件中搜索单词

时间:2015-06-23 11:45:43

标签: amazon-s3 solr common-crawl warc large-data

我想在常见抓取的所有WARC文件(近36K warc文件)中搜索一个单词(例如公司名称),并在其HTML源内容中获取所有具有该公司名称的网址。

我想将这些WARC文件保存在S3中。我只需要那些WARC文件中的URL。

是否有可用的模块或预先构建的软件包?

我可以使用Solr索引吗? (但可能需要更多记忆)

先谢谢。

0 个答案:

没有答案