如何从HTML获取文本和标题?

时间:2014-04-05 22:32:31

标签: java html

我有一个包含html文本的字符串

<html ...
      ...

    <tr class="test1" onmouseover= .....................>
       <td ..........> <strong>Test Text</strong>  </td>
       <td ............">Test Text 2</td>

       <span class="x1" title="Test Title 1">X1</span>
       <span class="x2" title="Test Title 2">X2</span>
       <span class="x3" title="Test Title 3">X3</span>
    </tr>  
..
.....

我需要创建一个String trString,其中包含<tr class="test1"

内的仅文字和标题

那样trString = "Test Text Test Text2 Test Title 1 Test Title 2 Test Title 3"

我该怎么做?

我尝试使用html解析器,但它似乎删除了标题

1 个答案:

答案 0 :(得分:1)

使用jsoup将HTML解析为DOM,然后使用CSS选择器*[title]获取具有title属性的所有元素的列表。

  

jsoup实现了WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。

     
      
  • 从网址,文件或字符串中抓取并解析HTML
  •   
  • 使用DOM遍历或CSS选择器查找和提取数据
  •