常见爬网的warc.gz文件的两个记录之间的分隔符

时间:2017-08-28 05:09:16

标签: common-crawl

我想解析从常见爬网下载的warc.gz文件。我有一个要求,我必须手动解析新闻warc.gz文件。两条记录之间的分隔符是什么?

2 个答案:

答案 0 :(得分:1)

我认为你不能手动解析gzip压缩文件。您最好的选择是使用the index找出每条记录的偏移量和长度。有关详细信息,请参阅api documentationthe guides

如果您手动解析WARC文件,请先解压缩.gz文件。

WARC records are separated by two newlines

  

WARC格式文件是一个或多个WARC的简单连接   记录。记录包含记录标题后跟记录   内容块和两个换行符。 (换行符是CRLF   互联网标准。)

答案 1 :(得分:0)

WARC文件中没有明确的记录分隔符。记录总是以' \ r \ n \ r \ n \ n'结尾。但这也用于将记录标题与记录正文分开,并且可能出现在HTML文档的任何位置。 WARC记录的长度由记录头中的Content-Length定义。

要使用PySpark处理Common Crawl WARC文件,请参阅cc-pyspark