可能重复:
Screen Scraping from a web page with a lot of Javascript
我只想做表单输入和网页抓取等任务,但需要支持javascript的网站。而且我还需要在同一个会话中输入表单,抓取等等。理想情况下,我想从命令行控制Web浏览器。而且我也想只使用Linux,所以我不能使用.NET。
我找到了Python的webbrowser库,但它的功能看起来非常有限。如果这可以与机械化和BeautifulSoup接口,那就太棒了。有什么建议?谢谢!
答案 0 :(得分:4)
已经有人问过了。
答案 1 :(得分:1)
你当然可以用Mozilla编写一个XUL应用程序(用Firefox,Xulrunner等运行它),它可以编写Web浏览器脚本。 Javascript通常用于此类任务。
我发现很棘手的是抑制浏览器本来会创建的所有类型的对话框 - 你实际上必须覆盖为每种类型的对话调用的XPCOM服务器类的行为,并且有一个许多不同的(例如,如果您的网站决定重定向到具有过期证书的https网站)。
当然,您不应该使用此类机制来违反任何网站的机器人使用政策。通常情况下,您不应该提交带有机器人的表格。