应用错误收集

时间：2016-08-18 13:06:28

标签： war common-crawl warc bigdata

我是一个新鲜的，我本周即将参加比赛。问题是关于存档和检索大型HTML数据集，我不知道它。我的朋友建议我使用网络存档和常见抓取。请向我建议一种将HTML数据集转换为Web存档以及如何索引它们的方法。提前谢谢。

答案 0 :(得分：0)

WARC格式是一种广泛使用的标准，绝对是存档网页的好决策。此HTTP标头也包含在WARC文件中。因此，您需要爬虫来创建WARC文件。如果HTML页面是作为文件集合提供的，则需要对文件系统进行爬网（例如，通过本地HTTP服务器）以将内容转换为WARC文件。

其他一切都取决于具体的任务：有许多工具和库