我想解析一个html页面并使用html标签的类名或id取出文本。
Apache tika还是jsoup?建议我使用html页面的特定标签,id或类名来操纵和取出文本的任何工具名称。
答案 0 :(得分:1)
我使用Jsoup
为您提供了三个用例的示例,请参阅代码中的注释:
- 按类名获取div元素
- 按标签名称
获取所有div元素- 按ID
获取元素
String html = "...";
Document doc = Jsoup.parse(html);
// get div elements by class name
Elements divs = doc.select("div.myclass");
for (Element div : divs) {
// print containing text
System.out.println(div.text());
}
// get all div elements by tag name
divs = doc.getElementsByTag("div");
for (Element div : divs) {
// print containing text
System.out.println(div.text());
}
// get element by id
String id = "...";
Element element = doc.getElementById(id);
System.out.println(element.text());