如何解析一个html页面并使用html标签的类名或id取出文本?

时间:2017-03-26 15:29:08

标签: html web-crawler jsoup html-parsing apache-tika

我想解析一个html页面并使用html标签的类名或id取出文本。

Apache tika还是jsoup?建议我使用html页面的特定标签,id或类名来操纵和取出文本的任何工具名称。

1 个答案:

答案 0 :(得分:1)

我使用Jsoup为您提供了三个用例的示例,请参阅代码中的注释:

  
      
  • 按类名获取div元素
  •   
  • 按标签名称
  • 获取所有div元素   
  • 按ID
  • 获取元素   
String html = "...";
Document doc = Jsoup.parse(html);

// get div elements by class name 
Elements divs = doc.select("div.myclass");
for (Element div : divs) {
    // print containing text
    System.out.println(div.text());
}

// get all div elements by tag name
divs = doc.getElementsByTag("div");
for (Element div : divs) {
    // print containing text
    System.out.println(div.text());
}

// get element by id
String id = "...";
Element element = doc.getElementById(id);
System.out.println(element.text());