从HTML JS src标记

时间:2016-12-08 22:06:06

标签: python-3.x url html-parsing

我正在使用Python3的 html.parser 解析HTML网站,以搜索所有包含的JavaScript文件。为此,我遍历所有脚本标记并检索 src 属性的内容。

挑战在于构建正确的URL。 src属性可能包含完整限定的网址,例如 https://example.com/jsfile.js ,但也可能只包含相对路径。在这些情况下,我必须手动设置方案(http或https)和域/网络位置。

由于我无法提出可靠的解决方案:有没有人知道我如何在Python3.5中做到这一点?

提前致谢, 安迪

1 个答案:

答案 0 :(得分:2)

使用

urllib.parse.urljoin获取完整网址

如果它的完整路径将按原样返回,如果它的相对值将返回完整路径。

这是一个例子:enter image description here