应用错误收集

我已按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/。但是，我希望抓取整个数据而不是部分数据，这与本文中所述不同。所以，在这个代码块中，

def get_partial_warc_file(url, num_bytes=1024 * 10):
with closing(requests.get(url, stream=True)) as r:
    buf = StringIO(r.raw.read(num_bytes))
return warc.WARCFile(fileobj=buf, compress=True)

我做了以下更改：

def get_partial_warc_file(url):
with closing(requests.get(url, stream=True)) as r:
    buf = StringIO(r.raw.data)
return warc.WARCFile(fileobj=buf, compress=True)

此代码块增加了给定warc路径的记录数，但它不会抓取整个记录数。我找不到可能的原因。任何帮助将不胜感激。

requests.get（）不抓取给定warc路径的整个常见爬网记录

0 个答案: