最初,我在这里发布我的问题:
Extracting content from a dynamic web site using a Java Library
然后,在阅读并应用以下问题的信息后:
Selenium Webdriver : not displaying the correct Li elements
我安装了硒chrome驱动程序(版本ChromeDriver 74.0.3729.6),我的chrome浏览器的版本为74.0.3729.169。硒WebDriver Java对象仍然无法正确找到网页上的元素数量,尽管我模拟了向下滚动,并且驱动程序打开的chrome浏览器确实显示了20个元素的总数。
import java.util.List;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.support.ui.ExpectedConditions;
import org.openqa.selenium.support.ui.WebDriverWait;
public class ImmoweltBot {
public static final String URL2 = "https://www.immowelt.at/liste/wien-2-leopoldstadt/wohnungen/mieten?sort=price&cp=2";
public static void main(String[] args) throws Exception {
System.setProperty("webdriver.chrome.driver", "C:\\Temp\\chromedriver.exe");
WebDriver webDriver = new ChromeDriver();
webDriver.get(URL2);
WebDriverWait wait = new WebDriverWait(webDriver, 15);
By searchResults = By.xpath("//*[contains(@class, 'listitem clear relative js-listitem')]");
JavascriptExecutor js = (JavascriptExecutor)webDriver;
webDriver.manage().window().maximize();
js.executeScript("window.scrollBy(0,1000)");
wait.until(ExpectedConditions.numberOfElementsToBeMoreThan(searchResults, 4));
List<WebElement> elemnts = webDriver.findElements(searchResults);
System.out.println(elemnts.size());
}
}
我的网页:
https://www.immowelt.at/liste/wien-2-leopoldstadt/wohnungen/mieten?sort=price&cp=2
任何帮助将不胜感激。谢谢!
答案 0 :(得分:1)
这有点棘手。您必须使用无限循环来检查元素的size()并向下滚动到页面,直到它达到20就会跳出循环。
WebDriver driver = new ChromeDriver();
driver.get("https://www.immowelt.at/liste/wien-2-leopoldstadt/wohnungen/mieten?sort=price&cp=2");
WebDriverWait wait = new WebDriverWait(driver, 15);
while(true){
List<WebElement> elemnts=wait.until(ExpectedConditions.presenceOfAllElementsLocatedBy(By.xpath("//div[contains(@class, 'listitem clear relative js-listitem')]")));
driver.findElement(By.tagName("body")).sendKeys(Keys.DOWN);
if (elemnts.size()==20)
{
System.out.println(elemnts.size());
break;
}
}
答案 1 :(得分:1)
感谢这个问题,它是如此具有挑战性。所以这是我的解决方案。 这是js可以平滑滚动直到向下。
(async function() {
function sleep() {
return new Promise(resolve => setTimeout(resolve, 500))
};
var height;
do {
height = document.body.scrollHeight;
window.scrollTo({
"behavior": "smooth",
"left": 0,
"top": document.body.scrollHeight
});
await sleep()
} while (height != document.body.scrollHeight)})();
我使用了异步函数,因为chomedriver.executeScript()希望异步函数使用'await'语句。
String scrollWhileScrollsJS = "(async function(){function sleep(){return new Promise(resolve=>setTimeout(resolve,500))};var height;do{height=document.body.scrollHeight;window.scrollTo({\"behavior\":\"smooth\",\"left\":0,\"top\":document.body.scrollHeight});await sleep()}while(height!=document.body.scrollHeight)})();";
( (ChromeDriver) webDriver ).executeScript( scrollWhileScrollsJS );
当然,我们需要流利的等待。为此,我发现只有在页面底部时,“ scrollY”才等于“ document.body.scrollHeight-innerHeight”。
new FluentWait<>( webDriver ).withTimeout( Duration.ofSeconds( 10 ) )
.pollingEvery( Duration.ofMillis( 500 ) )
.until( result -> ( (ChromeDriver) webDriver ).executeScript( "return scrollY" ).equals( ( (ChromeDriver) webDriver ).executeScript( "return document.body.scrollHeight-innerHeight" ) ) );
因此,您可以使用此代码滚动页面,等待页面滚动到末尾,然后获取不知道应该有多少元素的元素。
PS:请不要……我的意思是,真的,请不要在自动化测试中使用while(true)。