Question

我正在使用Beautiful soup解析某个网页，尝试检索h3标记内的所有链接：

.calculator .col-md-9{
    padding-right:0;
}

.calculator .col-md-3{
    padding-right:0;
}

但是，找到的链接与页面中显示的链接不同。例如，当页面中存在链接http://www.estense.com/?p=116872时，Beautiful soup将返回http://www.estense.com/%3Fp%3D116872，替换＆＃39;？＆＃39;与＆＃39;％3F＆＃39;和＆＃39; =＆＃39;与％3D。那是为什么？

感谢。

Answer 1

您可以使用urllib.parse

取消引用该网址

from urllib import parse
parse.unquote(item.a['href'])

美丽的汤用其他符号替换URL中的某些符号

1 个答案: