我想在python(pycurl)中使用curl下载网站内容。但我不希望这些网站的整个文本只是网站的一部分。我想减少下载整篇文章的时间。谢谢。
答案 0 :(得分:2)
您应该在HTTP请求中设置relevant headers,有关如何使用pycurl
注意:如果您执行以下操作
答案 1 :(得分:0)
加载页面的延迟通常不在HTML的实际下载中 - 这通常很快,因为html只不过是Unicode文本。除非页面上有 HUGE 数量的实际文本和标记,否则您不会节省太多。此外,为了获得页面的任何实际内容,您还需要下载整个<head>
...
就个人而言,我会异步地接近这个。 Twisted是针对此类方法的更常见建议之一。