我在Java中使用HTML作为String,我需要从中提取JavaScript链接。我可以使用哪些好的和易于使用的库?我查了Cobra和Neko,但我不认为(也许我错了)他们有我需要的东西,比如获取标签特定的内容。
答案 0 :(得分:1)
看看JSoup。它是一个HTML解析器,具有用于查找dom元素的选择器-DSL(域特定语言)。
例如,要查找a
的所有href
代码,您可以这样做:
Document doc = Jsoup.connect("http://www.google.com/").get();
Elements hrefAnchors = doc.select("a[href]");
如果您已将html下载为String
,则可以使用parse(String)
方法:
String html = "<p>Welcome to <a href='http://www.google.com/'>Google</a>.</p>";
Document doc = Jsoup.parse(html);