我想解析从常见爬网下载的warc.gz文件。我有一个要求,我必须手动解析新闻warc.gz文件。两条记录之间的分隔符是什么?
答案 0 :(得分:1)
我认为你不能手动解析gzip压缩文件。您最好的选择是使用the index找出每条记录的偏移量和长度。有关详细信息,请参阅api documentation和the guides。
如果您手动解析WARC文件,请先解压缩.gz文件。
WARC records are separated by two newlines:
WARC格式文件是一个或多个WARC的简单连接 记录。记录包含记录标题后跟记录 内容块和两个换行符。 (换行符是CRLF 互联网标准。)
答案 1 :(得分:0)
WARC文件中没有明确的记录分隔符。记录总是以' \ r \ n \ r \ n \ n'结尾。但这也用于将记录标题与记录正文分开,并且可能出现在HTML文档的任何位置。 WARC记录的长度由记录头中的Content-Length
定义。
要使用PySpark处理Common Crawl WARC文件,请参阅cc-pyspark。