带有cookie的Java Web解析器?

时间:2014-11-24 07:39:16

标签: java html parsing

有一些html解析库可用, 但如果你需要进行身份验证,并且每次请求都带有cookie,你会怎么做?

通常如果您需要按某个按钮以获取要解析的内容,该怎么办? 例如,该按钮计算某些内容,或通过websocets等获取一些数据......

是否有一种技术来模拟浏览器中的行为(以便所有js实际上都在工作)并从那里进行解析......?

更新

也许为了这个目的,我需要嵌入铬并使用传统的解析器?我很难理解如何触发点击...

1 个答案:

答案 0 :(得分:1)

HtmlUnit:http://htmlunit.sourceforge.net/

public static void main(String... args) throws Exception {
    final WebClient webClient = new WebClient();
    final HtmlPage page1 = webClient.getPage("http://some_url");
    final HtmlForm form = page1.getFormByName("myform");

    final HtmlSubmitInput button = form.getInputByName("submitbutton");
    final HtmlTextInput textField = form.getInputByName("userid");

    textField.setValueAttribute("root");

    final HtmlPage page2 = button.click();

    webClient.closeAllWindows();
}