使用jSoup检索下载的链接名称

时间:2015-05-17 09:05:54

标签: java hyperlink jsoup

我试图检索可供下载的.zip文件的名称。引用jSoup" cookbook",我发现该示例使用"%s(%s)" ,它返回超链接(下载名称)。我只想要后一部分,但很难区分这两者。这就是我到目前为止所拥有的:

public static void getNames() throws IOException{

    String url = "http://download.cyanogenmod.org/?device=d855";
    print("Fetching %s...", url);

    Document doc = Jsoup.connect(url).get();
    Elements links = doc.select("a");

    downloadNames = new ArrayList<>();

    // print("\nLinks: (%d)", links.size());
    for (Element link : links) {
        downloadNames.add(print("<%s> (%s)", link.attr("abs:href"), trim(link.text(), 35)));
    }

    int x = 0;
    while (x < downloadNames.size()) {

        // System.out.println(downloadNames.get(x));
        x++;

    }

    uniqueDownloadNames = new ArrayList<>();


    int y = 0;
    while (y < downloadNames.size()) {

        if (downloadNames.get(y).contains(".zip") && downloadNames.get(y).startsWith("<http://download")) {
            uniqueDownloadNames.add(downloadNames.get(y));
        }
        y++;

    }
    int z = 0;
    while (z < uniqueDownloadNames.size()) {

        System.out.println(uniqueDownloadNames.get(z));
        z++;

    }

}

private static String print(String msg, Object... args) {
    // System.out.println(String.format(msg, args));
    String s = String.format(msg, args);
    return s;
}

private static String trim(String s, int width) {
    if (s.length() > width)
        return s.substring(0, width-1) + ".";
    else
        return s;
}

1 个答案:

答案 0 :(得分:1)

嗯,我不确定你想通过getNames()方法中的最后两个循环实现什么。您可以使用Set而不是List来简单地删除重复的条目。 HashSet是Set接口的实现,只存储唯一的条目。所以你的getNames()会变得更短。另外我修改它也只检索第二部分。

public static void getNames() throws IOException {

    String url = "http://download.cyanogenmod.org/?device=d855";
    print("Fetching %s...", url);

    Document doc = Jsoup.connect(url).get();
    Elements links = doc.select("a");

    Set<String> downloadNames = new HashSet<>();

    // print("\nLinks: (%d)", links.size());
    for (Element link : links) {
        downloadNames.add(print("(%s)", trim(link.text(), 35)));
    }

    for (String element : downloadNames) {
        System.out.println(element);
    }

}

几点提示:

  • 请查看我的迭代循环,请将来使用它。虽然循环有一些不同的目的。

  • 您的版本中的错误可能在以下情况:

if (downloadNames.get(y).contains(".zip") && downloadNames.get(y).startsWith("<http://download")) {

您检查了名称是否以<http://download开头,但我假设您之前从字符串中删除了该部分。这就是输出为空的原因,因为没有字符串通过此测试。