使用无头浏览器进行Android Web Scraping

时间:2013-07-01 07:06:07

标签: java android selenium web-scraping htmlunit

我花了一天时间研究可以用来完成以下任务的库:

  • 像在后台一样检索网页的全部内容而不将结果呈现给视图。
  • lib应该支持在初始HTML加载后触发ajax请求加载一些额外结果数据的页面。
  • 从生成的html中我需要抓取xpath或css选择器表单中的元素。
  • 将来我也可能需要导航到下一页(关闭事件,提交按钮/链接等)

以下是我没有成功的尝试:

  • Jsoup:效果不错但不支持javascript / ajax(因此不会加载整页)
  • Android内置HttpEntity:javascript / ajax与jsoup相同的问题
  • HtmlUnit:看起来正是我所需要的,但是几小时后无法让它在Android上运行(其他用户通过尝试加载12MB +值的jar文件而失败。我自己加载了完整的源代码并仅将其作为项目库引用发现Android中不存在Applets和java.awt(由HtmlUnit使用)等内容。
  • Rhino - 我发现这非常令人困惑,不知道如何让它在Android中工作,即使它正是我正在寻找的。
  • Selenium驱动程序:看起来它可以工作但你没有一种直接的方式以无头方式实现它,这样你就不会在视图中显示实际的html。

我真的希望HtmlUnit能够正常工作,因为它似乎最适合我的解决方案。是否有任何方式或至少另一个我错过的图书馆适合我的需要?

我目前正在使用Android Studio 0.1.7,如果需要可以移至Ellipse。

提前致谢!

2 个答案:

答案 0 :(得分:23)

两周后,我承认失败并正在使用一种对我来说很有用的解决方法。

问题:
将HTMLUnit移植到Android(或至少具有我的专业水平)是非常困难的。我确信这是一个有价值的项目(而且对于经验丰富的java程序员来说并不耗费时间)。我通过电子邮件发送了HTMLUnit上的人,他们评论说他们不是在考虑一个端口或者会涉及到什么样的努力,但是建议任何想要开始这样一个项目的人都应该向他们的邮件列表发送一条消息,让更多的开发人员参与进来({{ 3}})。

解决方法:
我使用了内置WebView的android并覆盖了Webview类的onPageFinished方法,以便在页面完全加载后注入抓取所有html的Javascript。 Webview还可用于调用更多的javascript动作,单击按钮,填写表单等。

代码:

webView.getSettings().setJavaScriptEnabled(true);
MyJavaScriptInterface jInterface = new MyJavaScriptInterface(context);
webView.addJavascriptInterface(jInterface, "HtmlViewer");

webView.setWebViewClient(new WebViewClient() {

@Override
public void onPageFinished(WebView view, String url) {

   //Load HTML
   webView.loadUrl("javascript:window.HtmlViewer.showHTML
       ('<head>'+document.getElementsByTagName('html')[0].innerHTML+'</head>');");
}

webView.loadUrl(StartURL);
ParseHtml(jInterface.html);   

public class MyJavaScriptInterface {

    private Context ctx;
    public String html;

    MyJavaScriptInterface(Context ctx) {
        this.ctx = ctx;
    }

    @JavascriptInterface
    public void showHTML(String _html) {
        html = _html;
    }
}

答案 1 :(得分:0)

我已经采用了上面提到的实现(注入JavaScript),并且对我有用。我要做的只是将Webview的可见性设置为隐藏在其他UI元素下。我也在考虑对硒做同样的事情。我已经在Python中使用了Selenium和Chrome,这很棒,但是就像您提到的那样,不显示浏览器窗口并不容易。但是我认为有可能不显示Android中的组件。我必须尝试。