HtmlUnit不会在youtube上完全加载页面

时间:2016-05-12 22:23:50

标签: javascript java html youtube htmlunit

我的程序正在输入youtube视频链接,并尝试获取评论框。我知道如何获得它,但是当我尝试到达包含它的div时,它显示为加载div,所以我假设页面没有完全加载。我尝试了这些解决方案,但没有一个有效:

while(pagina.getFirstByXPath("//div[@id='comment-section-renderer']/div")
                           .toString().contains("loading")) {
    synchronized(pagina) {
        pagina.wait(2000);
    }
}

和另一种方式:

 cliente.waitForBackgroundJavaScript(100000);

页面从gmail登录加载,我检查用户在加载视频页面时是否已成功登录。

以下是方法的代码

public HtmlPage comentaVideo(String correo, String pass, String video, 
                             String comentario) throws ... {

    String url= "https://www.youtube.com"+video;
    HtmlPage pagina;
    HtmlDivision division;
    HtmlButton boton;
    HtmlTextInput input;

    pagina = cliente.getPage("https://www.youtube.com/watch?v=E2b9PiqobWg");

    boton = pagina.getFirstByXPath("//div[@id='yt-masthead-signin']/div/button"); 
    //press sign in button
    pagina = boton.click();

    pagina=iniciaSesion(correo,pass,pagina); //Login gmail (working)        

    System.out.println(pagina.getUrl().toString()); //just for debug

    //Trying to get the coment box div
    division = pagina.getFirstByXPath("//div[@id='comment-section-renderer']/div"); 

    //verifying that the div is correct
    System.out.println(division.toString()); 

    //some tests...
    pagina=division.click();

    boton= pagina.getFirstByXPath("//div[@id='comment-simplebox']/div/button[2]");
    pagina=boton.click();

    return pagina;

}

现在我已经认识到了这个问题,这是更新后的方法,仍然无法正常工作......

public HtmlPage comentaVideo(String correo, String pass, String video, String comentario) throws FailingHttpStatusCodeException, MalformedURLException, IOException, ErrorSesionNoIniciada, InterruptedException{

        String url= "https://www.youtube.com"+video;
        HtmlPage pagina;
        HtmlDivision division;
        HtmlButton boton;
        HtmlTextInput input;

        pagina = cliente.getPage("https://www.youtube.com/watch?v=E2b9PiqobWg");

        boton = pagina.getFirstByXPath("//div[@id='yt-masthead-signin']/div/button");
        pagina = boton.click();

        pagina=iniciaSesion(correo,pass,pagina);        

        System.out.println(pagina.getUrl().toString());


        //Parte no funcional

        division = pagina.getFirstByXPath("//div[@id='comment-section-renderer']/div"); 


        boton = division.getFirstByXPath("//div[@id='comment-section-renderer']/div[2]/button"); //best comments button

    while(boton == null){ //while this button is not loaded
        ScriptResult sr=pagina.executeJavaScript("window.scrollBy(0,60000)");
        cliente.waitForBackgroundJavaScript(1000);
        pagina=(HtmlPage)sr.getNewPage();
        boton = division.getFirstByXPath("//div[@id='comment-section-renderer']/div[2]/button"); 
    }
    System.out.println(boton.toString());



        //just for testing
        division = pagina.getFirstByXPath("//div[@id='comment-section-renderer']/div"); 

        System.out.println(division.toString());
        pagina=division.click();


        boton= pagina.getFirstByXPath("//div[@id='comment-simplebox']/div/button[2]");
        pagina=boton.click();

        return pagina;

我还尝试将内页面高度设置为最大尺寸。 (代码有未使用的var和throws,因为仅用于测试,我将在获得解决方案时使用最终版本更新它)

编辑1:改变循环条件,但仍然没有工作

1 个答案:

答案 0 :(得分:1)

查看youtube页面结构,似乎加载评论部分的ajax仅在向下滚动页面时触发,直到它在页面中可见。你可能想先尝试模拟滚动,然后依靠你的循环等待“加载”字符串从容器div的内部html中消失。

另请注意,此行为可能会在推出更新后很快发生变化。

编辑:

使用chrome检查器检查后,即使在通过ajax填充注释部分之后,似乎还有更多包含“loading”(子)字符串的div元素。我建议修改你的条件,以便出现一个新的预期字符串,而不是“加载”。例如,您可以搜索“热门评论”(按钮文字)或“添加公众评论...”(评论发布文本区域的占位符)。