Question

我想解析一个html页面并使用html标签的类名或id取出文本。

Apache tika还是jsoup？建议我使用html页面的特定标签，id或类名来操纵和取出文本的任何工具名称。

Answer 1

我使用Jsoup为您提供了三个用例的示例，请参阅代码中的注释：

按类名获取div元素

按标签名称
获取所有div元素
按ID
获取元素

String html = "...";
Document doc = Jsoup.parse(html);

// get div elements by class name 
Elements divs = doc.select("div.myclass");
for (Element div : divs) {
    // print containing text
    System.out.println(div.text());
}

// get all div elements by tag name
divs = doc.getElementsByTag("div");
for (Element div : divs) {
    // print containing text
    System.out.println(div.text());
}

// get element by id
String id = "...";
Element element = doc.getElementById(id);
System.out.println(element.text());

如何解析一个html页面并使用html标签的类名或id取出文本？

1 个答案: