Question

我编写了一个使用pycurl访问网址的代码。我已经启用了。该URL被重定向到其他URL。

以下是代码。

import pycurl
curl = pycurl.Curl()
curl.setopt(pycurl.URL, URL)
curl.setopt(pycurl.PROXY, '127.0.0.1')
curl.setopt(pycurl.PROXYPORT, 9050)
curl.setopt(pycurl.PROXYTYPE, pycurl.PROXYTYPE_SOCKS5_HOSTNAME)
curl.setopt(pycurl.USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0')
curl.perform()

它打印预期的html内容。但是每当访问一个URL时，其他地方的计数都会增加。

现在，当我运行脚本时，我得到了html内容，但是计数没有增加，但是当在一些在线html渲染网站中运行相同的html输出时（htmledit.squarefree.com/）），计数递增。

使用脚本本身自动增加计数的任何帮助吗？

感谢。

Answer 1

当客户访问他们的网站时，服务器上的某些数据的任何更新都可以通过javascript完成。

当一些网站内容加载到客户端机器上时，它有一些javascript，它被执行到客户机上以通知服务器。现在，当通过浏览器访问网页时，将执行javascript（如果启用浏览器，则执行此操作）。但是当通过curl访问网页时，它无法执行javascript。

我设法使用dryscrape。 Dryscrape使用http协议。您可以阅读here以解决为dryscrape启用socks5协议的问题。

pycurl以意想不到的方式工作

1 个答案: