如何归档和检索大型HTML数据集?

时间:2016-08-18 13:06:28

标签: war common-crawl warc bigdata

我是一个新鲜的,我本周即将参加比赛。问题是关于存档和检索大型HTML数据集,我不知道它。我的朋友建议我使用网络存档和常见抓取。请向我建议一种将HTML数据集转换为Web存档以及如何索引它们的方法。提前谢谢。

1 个答案:

答案 0 :(得分:0)

WARC格式是一种广泛使用的标准,绝对是存档网页的好决策。此HTTP标头也包含在WARC文件中。因此,您需要爬虫来创建WARC文件。如果HTML页面是作为文件集合提供的,则需要对文件系统进行爬网(例如,通过本地HTTP服务器)以将内容转换为WARC文件。

其他一切都取决于具体的任务:有许多工具和库

  1. 将内容抓取并导出为WARC:最简单的是wget --warc-file,但还有更多

  2. 读取WARC文件并处理内容。

  3. 有关工具的集合,请参阅The WARC Ecosystem。如果您只需要一个严肃的WARC文件,请从Common Crawl中获取一个,例如https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz