限制pycurl中的文本下载内容

时间:2011-06-21 06:48:07

标签: python pycurl

我想在python(pycurl)中使用curl下载网站内容。但我不希望这些网站的整个文本只是网站的一部分。我想减少下载整篇文章的时间。谢谢。

2 个答案:

答案 0 :(得分:2)

您应该在HTTP请求中设置relevant headers,有关如何使用pycurl

的信息,请参阅this question

注意:如果您执行以下操作

  1. 知道数据偏移量(以字节为单位)结果中所需的数据是
  2. 网络服务器支持此

答案 1 :(得分:0)

加载页面的延迟通常不在HTML的实际下载中 - 这通常很快,因为html只不过是Unicode文本。除非页面上有 HUGE 数量的实际文本和标记,否则您不会节省太多。此外,为了获得页面的任何实际内容,您还需要下载整个<head> ...

就个人而言,我会异步地接近这个。 Twisted是针对此类方法的更常见建议之一。