我刚刚开始使用Selenium Web Driver,我遇到了一个问题:我想将网页源代码下载到我的Java程序中。我尝试将driver.getPageSource()
与HtmlUnit
驱动程序一起使用,但我得到的结果与我手动执行以下操作后得到的结果不完全匹配:
右键点击浏览器 - >查看页面来源。
我无法弄清问题是什么。是否有不同的API用于我的目的或我在这里使用错误的驱动程序?我应该使用Chrome驱动程序而不是HtmlUnit
驱动程序吗?如果是,如何使用chrome驱动程序?
这是我正在做的事情:
WebDriver driver = new HtmlUnitDriver();
driver.get(webPage);
System.out.println(driver.getPageSource());
答案 0 :(得分:2)
我刚刚查看使用Firefox WebDriver的Fluent Selenium。它是一个测试框架,所以不要对断言方法的存在感到惊讶。它可以用于爬行。只需很少的配置就可以完美地为我工作。它需要Maven运行,这是我的工作示例:
package fluent;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.firefox.FirefoxDriver;
import org.seleniumhq.selenium.fluent.FluentWebDriver;
import org.seleniumhq.selenium.fluent.Period;
import org.seleniumhq.selenium.fluent.TestableString;
import java.util.concurrent.TimeUnit;
import static org.openqa.selenium.By.className;
public class Test {
public static void main(String[] args) {
WebDriver driver = new FirefoxDriver();
FluentWebDriver fwd = new FluentWebDriver(driver);
driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);
driver.get("http://www.hudku.com/search/business-list/Paint%20%26%20Hardware%20in%20Kanakapura%20Road,%20Bangalore,%20Karnataka,%20India?p=6&h1=mgK%3DFsPlSAsPTaOVwo%2F0FIMA");
driver.navigate();
TestableString test = fwd.div(className("heading")).within(Period.secs(3)).getText();
System.out.println("header: " + test.toString());
test.shouldContain("Paint");
System.out.println("all is fine!");
}
}
我的pom.xml
:
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>testPrj3</groupId>
<artifactId>testPrj3</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.seleniumhq.selenium.fluent</groupId>
<artifactId>fluent-selenium</artifactId>
<version>1.14.2</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.hamcrest</groupId>
<artifactId>hamcrest-all</artifactId>
<version>1.3</version>
<scope>test</scope>
</dependency>
<!-- If you're needing Coda Hale's Metrics integration (optional) -->
<dependency>
<groupId>com.codahale.metrics</groupId>
<artifactId>metrics-core</artifactId>
<version>3.0.0</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.1</version>
<configuration>
<source>1.7</source>
<target>1.7</target>
</configuration>
</plugin>
</plugins>
</build>
</project>
<强>更新强>
FluentLenium似乎更受欢迎。
答案 1 :(得分:0)
问题是浏览器向网络服务器发送一个字符串,声明它是什么类型的浏览器,然后网页会根据浏览器提供不同的内容。这是基本的Web编程事实。开发人员必须调整页面内容,尤其是CSS声明,具体取决于浏览器。