是否有一个Python库,允许您筛选一个严重依赖JavaScript的网站?

时间:2011-03-11 11:30:15

标签: javascript python html http screen-scraping

  

可能重复:
  What's a good tool to screen-scrape with Javascript support?

我正试图对我银行的网站进行一些屏幕抓取。 (我知道,我可能是一个失败者,但请忍受我。)

该网站似乎是通过JavaScript设置多个Cookie,其中包含与会话相关的不同值,然后如果无法找到这些值,则会重定向到主页。

我一直试图通过搜索页面的HTML / JavaScript代码找出一种方法来发现这些cookie的值,但是相关的代码看起来非常模糊,所以我很难做到这一点。

是否有一个Python库可以模拟启用了JavaScript的Web浏览器?我在想mechanize之类的东西:

  • 解析返回的HTML页面(例如,使用类似lxml的内容)
  • 解析HTML页面上的任何JavaScript
  • 设置JavaScript设置的任何Cookie
  • 修改已解析的HTML页面以及JavaScript
  • 所做的任何DOM修改

基本上是一个可在Python中编程的Web浏览器。如果做不到的话,用任何其他语言的解决方案。

1 个答案:

答案 0 :(得分:1)

我回答了类似的问题:Click on a javascript link within python?