在python中使用Selenium废弃HTML代码的一部分(非文本)

时间:2018-08-10 00:23:47

标签: python selenium selenium-webdriver web-scraping

我想从完整的网页中删除部分HTML代码(不是全部)以供当前项目使用,我不希望HTML的内部文本而是实际的代码并存储在外部文本文件或新的HTML中文件。

局限性: 无法使用任何其他库,因为该网站是动态的并且富含J.S,只有硒可以工作

1 个答案:

答案 0 :(得分:1)

否,可以用硒提取所选的html。您可以提取完整的html,或者必须一一提取每个元素:

使用outerHTML提取整个标头标记(包括标头):

elem = driver.find_element_by_class_name("header cf")
source_code = elem.get_attribute("outerHTML")

提取导航中的所有内容(包括导航)

elem = driver.find_element_by_class_name("nav")
source_code = elem.get_attribute("outerHTML")