标签: amazon-s3 solr common-crawl warc large-data
我想在常见抓取的所有WARC文件(近36K warc文件)中搜索一个单词(例如公司名称),并在其HTML源内容中获取所有具有该公司名称的网址。
我想将这些WARC文件保存在S3中。我只需要那些WARC文件中的URL。
是否有可用的模块或预先构建的软件包?
我可以使用Solr索引吗? (但可能需要更多记忆)
先谢谢。