有一些html解析库可用, 但如果你需要进行身份验证,并且每次请求都带有cookie,你会怎么做?
通常如果您需要按某个按钮以获取要解析的内容,该怎么办? 例如,该按钮计算某些内容,或通过websocets等获取一些数据......
是否有一种技术来模拟浏览器中的行为(以便所有js实际上都在工作)并从那里进行解析......?
更新
也许为了这个目的,我需要嵌入铬并使用传统的解析器?我很难理解如何触发点击...
答案 0 :(得分:1)
HtmlUnit:http://htmlunit.sourceforge.net/
public static void main(String... args) throws Exception {
final WebClient webClient = new WebClient();
final HtmlPage page1 = webClient.getPage("http://some_url");
final HtmlForm form = page1.getFormByName("myform");
final HtmlSubmitInput button = form.getInputByName("submitbutton");
final HtmlTextInput textField = form.getInputByName("userid");
textField.setValueAttribute("root");
final HtmlPage page2 = button.click();
webClient.closeAllWindows();
}