我正在进行一些网页编写,我发现了http://selectorgadget.com/以来最好的工具。我遇到的问题是,当我在Java中使用Selenium Web Driver时,它发现的结果数量与选择器小工具的数量不同。我认为它正在生成CSS选择器的问题。我不确定Selenium或选择器小工具是否存在问题。
以下是我使用的两种不同的CSS选择器,它们都应该产生相同数量的结果。
Title: #page-content a:nth-child(1) span
Price: td~ td+ td > div:nth-child(1)
这是我的控制台输出,请注意BAD URL:
Category hrefList Initialized
http://www.monoprice.com/Category?c_id=109&cp_id=10910
Titles: 10
Prices: 10
http://www.monoprice.com/Category?c_id=122&cp_id=12212
Titles: 19
Prices: 17
BAD: http://www.monoprice.com/Category?c_id=122&cp_id=12212
http://www.monoprice.com/Category?c_id=117&cp_id=11709
Titles: 4
Prices: 4
http://www.monoprice.com/Category?c_id=109&cp_id=10912
Titles: 2
Prices: 2
http://www.monoprice.com/Category?c_id=117&cp_id=11708
Titles: 9
Prices: 9
我一直在尝试调试这个,从我所看到的,CSS选择器我目前正在尽我所能尝试,但我仍然有页面导致错过的项目。我认为有时失败的唯一部分是价格上涨,但我确实需要进行完整的网站测试,并发现任何地方的标题抓取失败。我知道某些价格不会被列出,因为它们已经缺货,但是选择性小工具也没有找到这些字段的问题,但是网络驱动程序也是如此。
webdriver中是否有任何限制导致此问题,是否有更好的工具可用于生成我的css选择器以更好地使用webdriver?
编辑:只是想提一下,我之前也使用过JSoup。我不确定是否有人知道webdriver和JSoup尝试此任务之间是否存在差异。
答案 0 :(得分:1)
表示标题,请在cssSelector下面使用
div.row>a[href$="format=2"] >span
和价格,请在cssSelector下方使用
div.text-red
对于Webdriver,请使用下面的代码
driver.get("http://www.monoprice.com/Category?c_id=122&cp_id=12212");
Thread.sleep(4000);
List<WebElement> elements = driver.findElements(By.cssSelector("div.row>a[href$='format=2'] >span "));
System.out.println("title size is "+elements.size());
List<WebElement> elements1 = driver.findElements(By.cssSelector("div.text-red, div.row>a[href$='notify'] "));
System.out.println("price size is "+elements1.size());
我在自己的机器上运行此代码并返回正确的结果。