在Python的urllib中,我们如何获得在调用后更新的URL?

时间:2016-07-18 18:19:53

标签: python beautifulsoup

我正在使用BeautifulSoup来抓取网页。但是,当我在浏览器中进行调用(使用urllib2 + Python 3.4)时,每次进行新调用时,URL都会根据GUID更改为唯一的URL。例如。如果我拨打电话http://codepen.io/anon/pen/kXZwdX .. com,则会更改为 http://www .. com / DYNAMIC / id = {GUID like string} 。对页面上链接的所有后续调用都会将此ID附加到调用中。每次调用浏览器时,GUID都会更改字符串。有没有办法在调用网站后获得GUID之类的动态链接?我试图让我的脚本不引人注目,所以我想以无头的方式做这件事(例如,避免使用Selenium)。

1 个答案:

答案 0 :(得分:1)

.geturl()方法恰好存在于此目的:

from urllib2 import urlopen
print urlopen(url).geturl()