硒webdriver找不到正确数量的元素

时间:2019-06-20 15:18:36

标签: java selenium selenium-webdriver web-scraping selenium-chromedriver

最初,我在这里发布我的问题:

Extracting content from a dynamic web site using a Java Library

然后,在阅读并应用以下问题的信息后:

Selenium Webdriver : not displaying the correct Li elements

我安装了硒chrome驱动程序(版本ChromeDriver 74.0.3729.6),我的chrome浏览器的版本为74.0.3729.169。硒WebDriver Java对象仍然无法正确找到网页上的元素数量,尽管我模拟了向下滚动,并且驱动程序打开的chrome浏览器确实显示了20个元素的总数。

    import java.util.List;

    import org.openqa.selenium.By;
    import org.openqa.selenium.WebDriver;
    import org.openqa.selenium.WebElement;
    import org.openqa.selenium.chrome.ChromeDriver;
    import org.openqa.selenium.support.ui.ExpectedConditions;
    import org.openqa.selenium.support.ui.WebDriverWait;

     public class ImmoweltBot {

    public static final String URL2 = "https://www.immowelt.at/liste/wien-2-leopoldstadt/wohnungen/mieten?sort=price&cp=2";


    public static void main(String[] args) throws Exception {
        System.setProperty("webdriver.chrome.driver", "C:\\Temp\\chromedriver.exe");

        WebDriver webDriver = new ChromeDriver();
        webDriver.get(URL2);
        WebDriverWait wait = new WebDriverWait(webDriver, 15);
        By searchResults = By.xpath("//*[contains(@class, 'listitem clear relative js-listitem')]");

        JavascriptExecutor js = (JavascriptExecutor)webDriver;
        webDriver.manage().window().maximize();
        js.executeScript("window.scrollBy(0,1000)");

        wait.until(ExpectedConditions.numberOfElementsToBeMoreThan(searchResults, 4));
        List<WebElement> elemnts = webDriver.findElements(searchResults);
        System.out.println(elemnts.size());
    }

}

我的网页:

https://www.immowelt.at/liste/wien-2-leopoldstadt/wohnungen/mieten?sort=price&cp=2

任何帮助将不胜感激。谢谢!

2 个答案:

答案 0 :(得分:1)

这有点棘手。您必须使用无限循环来检查元素的size()并向下滚动到页面,直到它达到20就会跳出循环。

WebDriver driver = new ChromeDriver();
driver.get("https://www.immowelt.at/liste/wien-2-leopoldstadt/wohnungen/mieten?sort=price&cp=2");
WebDriverWait wait = new WebDriverWait(driver, 15);

while(true){

  List<WebElement> elemnts=wait.until(ExpectedConditions.presenceOfAllElementsLocatedBy(By.xpath("//div[contains(@class, 'listitem clear relative js-listitem')]")));                               

   driver.findElement(By.tagName("body")).sendKeys(Keys.DOWN);

   if (elemnts.size()==20)
       {
          System.out.println(elemnts.size());   
          break;
       }               

        } 

答案 1 :(得分:1)

感谢这个问题,它是如此具有挑战性。所以这是我的解决方案。 这是js可以平滑滚动直到向下。

(async function() {
function sleep() {
    return new Promise(resolve => setTimeout(resolve, 500))
};
var height;
do {
    height = document.body.scrollHeight;
    window.scrollTo({
        "behavior": "smooth",
        "left": 0,
        "top": document.body.scrollHeight
    });
    await sleep()
} while (height != document.body.scrollHeight)})();

我使用了异步函数,因为chomedriver.executeScript()希望异步函数使用'await'语句。

String scrollWhileScrollsJS = "(async function(){function sleep(){return new Promise(resolve=>setTimeout(resolve,500))};var height;do{height=document.body.scrollHeight;window.scrollTo({\"behavior\":\"smooth\",\"left\":0,\"top\":document.body.scrollHeight});await sleep()}while(height!=document.body.scrollHeight)})();";
( (ChromeDriver) webDriver ).executeScript( scrollWhileScrollsJS );

当然,我们需要流利的等待。为此,我发现只有在页面底部时,“ scrollY”才等于“ document.body.scrollHeight-innerHeight”。

new FluentWait<>( webDriver ).withTimeout( Duration.ofSeconds( 10 ) )
                             .pollingEvery( Duration.ofMillis( 500 ) )
                             .until( result -> ( (ChromeDriver) webDriver ).executeScript( "return scrollY" ).equals( ( (ChromeDriver) webDriver ).executeScript( "return document.body.scrollHeight-innerHeight" ) ) );

因此,您可以使用此代码滚动页面,等待页面滚动到末尾,然后获取不知道应该有多少元素的元素。

PS:请不要……我的意思是,真的,请不要在自动化测试中使用while(true)。