我想获取网页的HTML内容,但大多数内容都是由javascript生成的。
是否可以获得这个生成的HTML(如果可以的话,使用python)?
答案 0 :(得分:3)
我知道从服务器执行此操作的唯一方法是在实际的浏览器引擎中运行页面,该引擎将解析HTML,构建正常的DOM环境,在页面中运行javascript然后进入该DOM引擎并从body标签中获取innerHTML。
这可以通过使用Python中的相应网址启动Chrome,然后使用Chrome插件在页面完成初始化并与您的Python进行通信后获取动态生成的HTML来完成。
答案 1 :(得分:2)
结帐Selenium。它有一个python驱动程序,可能是你正在寻找的。 p>
答案 2 :(得分:0)
如果大多数内容是由Javascript生成的,则Javascript可能正在执行ajax调用以检索内容。您可以从Python应用程序中调用这些服务器端脚本。
请检查它是否违反了网站的条款并获得许可。
答案 3 :(得分:0)
您可以使用Safari在没有Python或任何脚本的情况下执行此操作。
查看我对类似问题的回答here