我有一个链接,我想从中删除内容,如下所示:
https://www.whatever.com/getDescModuleAjax.htm?productId=32663684002&t=1478698394335
但是当我想用硒打开它时它不会起作用。当我在普通的浏览器中加载它时,它打开为纯文本,Html在括号中,如下所示:
window.productDescription='<div style="clea....
#I want this
....n.jpg" width="950"/></p></div>'";
我在想我会将源代码作为纯文本下载并使用Bs4提取我需要的内容。但这不是最好的解决方案。有没有办法忽略标签并正常使用selenium和python加载网页?
答案 0 :(得分:0)
如果所有源代码都在JS变量中:
window.variable="<div>...</div>"
然后你可能无法使用 bs4 来解决它,因为bs4适用于纯html DOM节点。
有没有办法忽略标签并使用selenium和python正常加载网页
Selenium很可能应该强制页面JS执行并将可变内容加载到页面的DOM中。尝试搜索应用/使用window.productDescription
或productDescription
表达式的位置(在哪个已加载的.js
文件中)?