Question

我已经抓取了常见抓取的数据，我想找出与每条记录对应的网址。

for record in files:
     print record['WARC-Target-URI']

这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是否获得了对应于每个记录的目标uri或者只有一个目标uri用于一个warc文件路径？

Answer 1

您所追求的信息是标题的一部分。尝试：

print record.header['WARC-Target-URI']