requests.get()不抓取给定warc路径的整个常见爬网记录

时间:2017-08-10 04:58:50

标签: python-requests common-crawl warc

我已按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/。但是,我希望抓取整个数据而不是部分数据,这与本文中所述不同。所以,在这个代码块中,

def get_partial_warc_file(url, num_bytes=1024 * 10):
with closing(requests.get(url, stream=True)) as r:
    buf = StringIO(r.raw.read(num_bytes))
return warc.WARCFile(fileobj=buf, compress=True)

我做了以下更改:

def get_partial_warc_file(url):
with closing(requests.get(url, stream=True)) as r:
    buf = StringIO(r.raw.data)
return warc.WARCFile(fileobj=buf, compress=True)

此代码块增加了给定warc路径的记录数,但它不会抓取整个记录数。我找不到可能的原因。任何帮助将不胜感激。

0 个答案:

没有答案