应用错误收集

限制pycurl中的文本下载内容

时间：2011-06-21 06:48:07

标签： python pycurl

我想在python（pycurl）中使用curl下载网站内容。但我不希望这些网站的整个文本只是网站的一部分。我想减少下载整篇文章的时间。谢谢。

2 个答案:

答案 0 :(得分：2)

您应该在HTTP请求中设置relevant headers，有关如何使用pycurl

的信息，请参阅this question

注意：如果您执行以下操作

知道数据偏移量（以字节为单位）结果中所需的数据是
网络服务器支持此

答案 1 :(得分：0)

加载页面的延迟通常不在HTML的实际下载中 - 这通常很快，因为html只不过是Unicode文本。除非页面上有 HUGE 数量的实际文本和标记，否则您不会节省太多。此外，为了获得页面的任何实际内容，您还需要下载整个<head> ...

就个人而言，我会异步地接近这个。 Twisted是针对此类方法的更常见建议之一。