pycurl以意想不到的方式工作

时间:2015-09-04 14:06:41

标签: python html tor pycurl

我编写了一个使用pycurl访问网址的代码。我已经启用了。 该URL被重定向到其他URL。

以下是代码。

import pycurl
curl = pycurl.Curl()
curl.setopt(pycurl.URL, URL)
curl.setopt(pycurl.PROXY, '127.0.0.1')
curl.setopt(pycurl.PROXYPORT, 9050)
curl.setopt(pycurl.PROXYTYPE, pycurl.PROXYTYPE_SOCKS5_HOSTNAME)
curl.setopt(pycurl.USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0')
curl.perform()

它打印预期的html内容。 但是每当访问一个URL时,其他地方的计数都会增加。

现在,当我运行脚本时,我得到了html内容,但是计数没有增加,但是当在一些在线html渲染网站中运行相同的html输出时(htmledit.squarefree.com/) ),计数递增。

使用脚本本身自动增加计数的任何帮助吗?

感谢。

1 个答案:

答案 0 :(得分:0)

当客户访问他们的网站时,服务器上的某些数据的任何更新都可以通过javascript完成。

当一些网站内容加载到客户端机器上时,它有一些javascript,它被执行到客户机上以通知服务器。现在,当通过浏览器访问网页时,将执行javascript(如果启用浏览器,则执行此操作)。但是当通过curl访问网页时,它无法执行javascript。

我设法使用dryscrape。 Dryscrape使用http协议。您可以阅读here以解决为dryscrape启用socks5协议的问题。