我需要保存网页。使用mechanize,我可以保存根页面的HTML。但是,在加载页面后会运行许多脚本,并使用我想保存到文件的数据填充页面的几个部分。
我很确定我已经看到了这个库存在,但是我不记得这个名字,也没有在我的无数搜索中找到它。我想我看到有一个库就像一个Web浏览器,允许它加载一个页面,运行任何需要运行的JS脚本,然后返回最终页面,就像在真实浏览器中显示的那样。
我不确定它是否是python 2或3,但两者都可以。
答案 0 :(得分:1)
该库是selenium。 http://www.youtube.com/watch?v=g54xYVMojos是一段视频,我花了一些时间回来查看硒的作用。请参阅How to load all entries in an infinite scroll at once to parse the HTML in python的答案,了解硒的样本用法
答案 1 :(得分:0)