我正在尝试使用urllib2从网站上获取网页。在我设法登录并检索页面后,我发现页面里面有一些<script>.....</script>
。如何保存渲染的输出(网页的完整内容,而不是脚本)?
答案 0 :(得分:3)
如果您使用的是urllib,则无法轻松处理Javascript。
你需要的是一个无头浏览器,例如。 WebKit的。
可以找到一个简单的例子here.
如果您不希望自己被限制为python,请尝试Phantomjs
答案 1 :(得分:1)
我还想提一下pywebkitgtk(我最近作为嵌入式浏览器使用过很多)和Selenium。