Question

我正在编写一个程序，我需要像在计算机上一样从一个页面转到另一个页面。

在urllib上我转到一个页面并从该页面源获取一个网址然后我拿到该网址然后我去了那个但是我从网站上收到错误，说我来自错误的页面，因为urllib没有从一个页面开始转到另一个页面，它会打开一个新页面。。这是一些示例代码：

tree = self.opener.open('http://www.example.com').read()
#Beautiful soup parsing to get the new _url
new_page = self.opener.open('http://www.example/new_url.com').read()
print new_page #Output is error page

我如何编写它以便网站认为我来自上一页？

谢谢

Answer 1

如果您尝试访问的网站具有这种敏感性，那么只使用“urllib2”进入该网站会遇到很多麻烦 - 因为它只提供非常低级别的http访问权限 - 您d需要在你的程序中模拟HTTP标题，说明你来自哪里，并重播你在第一次访问时可能获得的任何cookie。

有第三方Python模块使这些任务变得更加容易，我建议您起诉“requests”库 - 或者至少“mechanize”。有可能甚至没有使用这些，你要求的是默认实现的 - 但是按照文档的说明你选择的项目的示例，它应该更简单。

使用urllib2从一个页面转到另一个页面

1 个答案: