我有大量的HTML文件,我想使用BeautifulSoup处理并生成一些统计信息。虽然,我遇到的问题是HTML文件包含可能生成更多未经处理的HTML代码的脚本。因此,我需要在继续之前将所有Javascript呈现为静态HTML。
我已经看过一些选项,例如使用Selenium,但它似乎不合适,因为我不想启动浏览器(它应该在后台完成)。
有人可以建议一个合适的方法吗?
提前致谢!
答案 0 :(得分:1)
由于您需要一个Javascript引擎,因此使用无头浏览器是最佳选择。 使用Selenium Web驱动程序和PhantomJS无头浏览器可能是您的最佳选择:
driver = webdriver.PhantomJS()
driver.get("...")
bs = BeautifulSoup(driver.page_source)