用于非结构化html页面的jsoup与表

时间:2015-12-04 11:45:19

标签: java android html image jsoup

我试图从这个url获取主要的img, 在这里我到目前为止尝试了:

Document doc = null;
    try {
        doc = Jsoup.connect(url).get();
    } catch (IOException e) {
        e.printStackTrace();
    }

    Element table = doc.select("center").get(1);
    Elements rows = table.select("table[width=970]");
    for (int i = 0; i < rows.size(); i++) {
        Element row = rows.get(1);
        Elements cols = row.select("table[width=634]");
        for (int j = 0; j < cols.size(); j++) {
            Element row1 = rows.get(1);
            Elements cols1 = row1.select("table[width=600]");
            for (int k = 0; k < cols1.size(); k++){
                Element row0 = rows.first();
                Elements cols0 = row0.select("td");
                for (Element image : cols0) {
                    String image2 = image.absUrl("src").toString();
                    Log.i("tanja7 ", "pic  " + image2);
                }
            }
        }
    }

这是非结构化的html页面(我不知道如何复制html代码) enter image description here 我做错了什么?

1 个答案:

答案 0 :(得分:1)

似乎您期望内部元素是JSoup select方法调用的结果。这是不对的 - 您在&#34;搜索范围&#34;中获得与选择器匹配的元素,这是由您调用select的元素/文档类实例给出的。因此,如果要获取文档的所有表格元素,请执行doc.select("table")。这不是给你的行,而是表。也许你之前已经理解了这一点,但是你的变量命名建议不然。

无论如何,这是一个有效的选择器。它将获取所有img元素,这些元素是具有属性width=600并且位于文档的另一个表中的表的子节点(不一定是直接的)。

Elements imgEls = doc.select("table table[width=600] img");
System.out.println(imgEls.first().absUrl("src"));

你说html没有结构化,所以你可能想检查相关图像是否真的总是在指定的两个表中。

<强>更新 如果您使用的是移动设备,请务必添加:

doc = Jsoup.connect(url).userAgent("Mozilla").get();