Jsoup:查找指定页面上的所有图像以及子页面或javascript内部的所有图像?

时间:2015-05-26 21:44:38

标签: java android image jsoup

当我尝试在example等页面上的Android应用中使用jsoup this时,则找不到图像。这是因为内容是通过javascript加载的吗?

现在我的代码看起来像这样:

Document doc = Jsoup.connect(url).get();
Elements media = doc.select("[src]");

print("\nMedia: (%d)", media.size());
List<Link> tmpLinks = new ArrayList<>();
int i = 0;
for (Element src : media) {
    if (src.tagName().equals("img")) {
        if (!src.attr("abs:src").contains(".png") && !src.attr("abs:src").contains(".gif")) {
            String widthString = src.attr("width");
            int width;
            if (!widthString.isEmpty()) {
                width = Integer.parseInt(src.attr("width"));
            }
            else width = 0;
            String heightString = src.attr("height");
            int height;
            if (!heightString.isEmpty()) {
                height = Integer.parseInt(src.attr("height"));
            }
            else height = 0;

            if (width == 0 || width >= minAllowedWidth) {
                if (!src.attr("abs:src").isEmpty()) {
                    tmpLinks.add(new Link(i, src.attr("abs:src"), width, height));
                }
            }
            i++;
            print(" * %s: <%s> %sx%s (%s)",
                    src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),
                    trim(src.attr("alt"), 20));
        }
    }
}

List<Link> noDuplicates = new ArrayList<>();
Set<String> titles = new HashSet<>();
for (Link link : tmpLinks ) {
    if (titles.add(link.getUrl())) {
        noDuplicates.add(link);
    }
}

List<Link> finalLinks = new ArrayList<>();
for (Link link : noDuplicates) {
    URL testUrl = new URL(link.getUrl());
    URLConnection urlConnection = testUrl.openConnection();
    urlConnection.connect();
    int file_size = urlConnection.getContentLength();
    System.out.println("Fetching size: " + link.getUrl() + " " + file_size);
    if (file_size >= minAllowedFileSize) {
        link.setSize(file_size);
        finalLinks.add(link);
    }
}
Collections.sort(finalLinks, new LinkSizeComparator());

第二个问题是,我可以在网站上使用jsoup子页面(或图片链接)进行分析,例如this

1 个答案:

答案 0 :(得分:0)

我尝试使用Jsoup抓取网站,但我没有获得任何图片,因此显然它不适用于动态网站。

您可以尝试用户在此主题中建议的内容 Getting Jsoup to support dynamically generated html by JavaScript