我已经抓取了常见抓取的数据,我想找出与每条记录对应的网址。
for record in files:
print record['WARC-Target-URI']
这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是否获得了对应于每个记录的目标uri或者只有一个目标uri用于一个warc文件路径?
答案 0 :(得分:1)
您所追求的信息是标题的一部分。尝试:
print record.header['WARC-Target-URI']