所有加载脚本运行后以编程方式保存网页

时间:2014-01-10 06:01:51

标签: python web-scraping

我需要保存网页。使用mechanize,我可以保存根页面的HTML。但是,在加载页面后会运行许多脚本,并使用我想保存到文件的数据填充页面的几个部分。

我很确定我已经看到了这个库存在,但是我不记得这个名字,也没有在我的无数搜索中找到它。我想我看到有一个库就像一个Web浏览器,允许它加载一个页面,运行任何需要运行的JS脚本,然后返回最终页面,就像在真实浏览器中显示的那样。

我不确定它是否是python 2或3,但两者都可以。

2 个答案:

答案 0 :(得分:1)

该库是seleniumhttp://www.youtube.com/watch?v=g54xYVMojos是一段视频,我花了一些时间回来查看硒的作用。请参阅How to load all entries in an infinite scroll at once to parse the HTML in python的答案,了解硒的样本用法

答案 1 :(得分:0)

我想我找到了我想要的东西。 Selenium!它在python中也有一个package。如果它确实是我正在寻找的话,将更新这个答案和社区可搜索性的问题。