我已按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/。但是,我希望抓取整个数据而不是部分数据,这与本文中所述不同。所以,在这个代码块中,
def get_partial_warc_file(url, num_bytes=1024 * 10):
with closing(requests.get(url, stream=True)) as r:
buf = StringIO(r.raw.read(num_bytes))
return warc.WARCFile(fileobj=buf, compress=True)
我做了以下更改:
def get_partial_warc_file(url):
with closing(requests.get(url, stream=True)) as r:
buf = StringIO(r.raw.data)
return warc.WARCFile(fileobj=buf, compress=True)
此代码块增加了给定warc路径的记录数,但它不会抓取整个记录数。我找不到可能的原因。任何帮助将不胜感激。