如何提取给出html文件甚至文件大小的所有链接?

时间:2017-08-10 21:35:03

标签: javascript java html rss-reader

是否可以列出html页面中存在的所有链接,给定html链接作为输入,几乎你在这里看到它? http://www.feedbucket.com/?src=http://allearsenglish.libsyn.com/rss&start=0

看起来该网站会读取所有存在的链接并向我提供摘要,并在不打开的情况下读取mp3链接的文件大小。

你知道哪些好的教程可以帮助我学习这个主题或类似的主题吗?

3 个答案:

答案 0 :(得分:0)

我有个主意。您可以使用split函数获取这些URL中的所有链接,例如:

var link =  "http://www.feedbucket.com/?src=http://allearsenglish.libsyn.com/rss&start=0";
var links = link.split("http://");

答案 1 :(得分:0)

如果您在服务器端使用java(因为java标记)

您可以使用此Java html解析器库:jsoup

您可以从输入网址请求页面,如下所示:

String src = request.getParameter("src");
Document doc = Jsoup.connect(src).get();

然后解析" doc"找到页面中的所有链接,如下所示:

Elements links = doc.select("a[href]");

Here就是一个类似的例子。

答案 2 :(得分:0)

那里有大量的HTML解析库。 Jsoup非常适合Java。您可以执行以下操作来获取元素列表。然后你会遍历列表来打印它们,获取文件大小,以及你想要的任何其他内容

Jsoup.connect("http://www.feedbucket.com/?src=http://allearsenglish.libsyn.com/rss&start=0").get().getElementsByAttribute("href");

HTML解析器库将做的是获取页面源,并获取所有HTML标记,并从那里过滤掉类似链接的“a”标记。