Web爬行类隐藏字段

时间:2014-11-11 19:18:37

标签: java jsoup hidden-field

我是新手。在使用我的抓取工具测试多个网站后,我发现了以下内容:

<div class="originalCurrencyInformation">                            
<label class="Hidden original-price">Price: £500</label>

注意类:隐藏而不是类型=“隐藏”。如何使用任何库检索价格,但我的偏好是Jsoup。

以下是一段代码示例:

Document doc = Jsoup.connect("http://www.example.org")
                            .timeout(3000).get();
    Elements tags = doc.select("div.originalCurrencyInformation > Label.original-price");
    for(Element tag: tags){
                   System.out.println(tag);
    }

更新

我已经尝试过Label.Hidden原价和Label.Hidden.original-price,但是该值返回null,这就是我得到的

1 个答案:

答案 0 :(得分:0)

在您的示例中,original-price不在div中,因此不清楚为什么要查找div.original-price。您可以使用:

doc.select("div.originalCurrencyInformation > label.Hidden.original-price")

选择同时包含“隐藏”和“原始价格”类别的标签。

然后您可以使用:

tag.text()

从元素中获取文本。