我正在使用Python3的 html.parser 解析HTML网站,以搜索所有包含的JavaScript文件。为此,我遍历所有脚本标记并检索 src 属性的内容。
挑战在于构建正确的URL。 src属性可能包含完整限定的网址,例如 https://example.com/jsfile.js ,但也可能只包含相对路径。在这些情况下,我必须手动设置方案(http或https)和域/网络位置。
由于我无法提出可靠的解决方案:有没有人知道我如何在Python3.5中做到这一点?
提前致谢, 安迪