网页抓取需要javascript支持的网站

时间:2009-08-11 21:38:53

标签: javascript webforms screen-scraping beautifulsoup mechanize

  

可能重复:
  Screen Scraping from a web page with a lot of Javascript

我只想做表单输入和网页抓取等任务,但需要支持javascript的网站。而且我还需要在同一个会话中输入表单,抓取等等。理想情况下,我想从命令行控制Web浏览器。而且我也想只使用Linux,所以我不能使用.NET。

我找到了Python的webbrowser库,但它的功能看起来非常有限。如果这可以与机械化和BeautifulSoup接口,那就太棒了。有什么建议?谢谢!

2 个答案:

答案 0 :(得分:4)

答案 1 :(得分:1)

你当然可以用Mozilla编写一个XUL应用程序(用Firefox,Xulrunner等运行它),它可以编写Web浏览器脚本。 Javascript通常用于此类任务。

我发现很棘手的是抑制浏览器本来会创建的所有类型的对话框 - 你实际上必须覆盖为每种类型的对话调用的XPCOM服务器类的行为,并且有一个许多不同的(例如,如果您的网站决定重定向到具有过期证书的https网站)。

当然,您不应该使用此类机制来违反任何网站的机器人使用政策。通常情况下,您不应该提交带有机器人的表格。