美丽的汤用其他符号替换URL中的某些符号

时间:2017-09-25 07:29:16

标签: web-scraping character-encoding beautifulsoup

我正在使用Beautiful soup解析某个网页,尝试检索h3标记内的所有链接:

.calculator .col-md-9{
    padding-right:0;
}

.calculator .col-md-3{
    padding-right:0;
}

但是,找到的链接与页面中显示的链接不同。例如,当页面中存在链接http://www.estense.com/?p=116872时,Beautiful soup将返回http://www.estense.com/%3Fp%3D116872,替换'?'与'%3F'和' ='与%3D。那是为什么?

感谢。

1 个答案:

答案 0 :(得分:1)

您可以使用urllib.parse

取消引用该网址
from urllib import parse
parse.unquote(item.a['href'])