无法从通用抓取抓取的warc文件中找到网址

时间:2017-07-17 11:56:46

标签: python record common-crawl warc

我已经抓取了常见抓取的数据,我想找出与每条记录对应的网址。

for record in files:
     print record['WARC-Target-URI']

这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是否获得了对应于每个记录的目标uri或者只有一个目标uri用于一个warc文件路径?

1 个答案:

答案 0 :(得分:1)

您所追求的信息是标题的一部分。尝试:

print record.header['WARC-Target-URI']