从网页中提取嵌入式脚本

时间:2016-11-09 23:52:32

标签: python html ajax selenium-webdriver web-scraping

我有一个链接,我想从中删除内容,如下所示:

https://www.whatever.com/getDescModuleAjax.htm?productId=32663684002&t=1478698394335

但是当我想用硒打开它时它不会起作用。当我在普通的浏览器中加载它时,它打开为纯文本,Html在括号中,如下所示:

window.productDescription='<div style="clea.... 
#I want this 
....n.jpg" width="950"/></p></div>'";

我在想我会将源代码作为纯文本下载并使用Bs4提取我需要的内容。但这不是最好的解决方案。有没有办法忽略标签并正常使用selenium和python加载网页?

1 个答案:

答案 0 :(得分:0)

如果所有源代码都在JS变量中: window.variable="<div>...</div>"然后你可能无法使用 bs4 来解决它,因为bs4适用于纯html DOM节点。

  

有没有办法忽略标签并使用selenium和python正常加载网页

Selenium很可能应该强制页面JS执行并将可变内容加载到页面的DOM中。尝试搜索应用/使用window.productDescriptionproductDescription表达式的位置(在哪个已加载的.js文件中)?