Question

我有大量的HTML文件，我想使用BeautifulSoup处理并生成一些统计信息。虽然，我遇到的问题是HTML文件包含可能生成更多未经处理的HTML代码的脚本。因此，我需要在继续之前将所有Javascript呈现为静态HTML。

我已经看过一些选项，例如使用Selenium，但它似乎不合适，因为我不想启动浏览器（它应该在后台完成）。

有人可以建议一个合适的方法吗？

提前致谢！

Answer 1

由于您需要一个Javascript引擎，因此使用无头浏览器是最佳选择。使用Selenium Web驱动程序和PhantomJS无头浏览器可能是您的最佳选择：

driver = webdriver.PhantomJS()
driver.get("...")
bs = BeautifulSoup(driver.page_source)