渲染Javascript以获取Python中的静态HTML

时间:2016-03-17 09:07:55

标签: python html rendering html-rendering

我有大量的HTML文件,我想使用BeautifulSoup处理并生成一些统计信息。虽然,我遇到的问题是HTML文件包含可能生成更多未经处理的HTML代码的脚本。因此,我需要在继续之前将所有Javascript呈现为静态HTML。

我已经看过一些选项,例如使用Selenium,但它似乎不合适,因为我不想启动浏览器(它应该在后台完成)。

有人可以建议一个合适的方法吗?

提前致谢!

1 个答案:

答案 0 :(得分:1)

由于您需要一个Javascript引擎,因此使用无头浏览器是最佳选择。 使用Selenium Web驱动程序和PhantomJS无头浏览器可能是您的最佳选择:

driver = webdriver.PhantomJS()
driver.get("...")
bs = BeautifulSoup(driver.page_source)