我有一个包含html文本的字符串
<html ...
...
<tr class="test1" onmouseover= .....................>
<td ..........> <strong>Test Text</strong> </td>
<td ............">Test Text 2</td>
<span class="x1" title="Test Title 1">X1</span>
<span class="x2" title="Test Title 2">X2</span>
<span class="x3" title="Test Title 3">X3</span>
</tr>
..
.....
我需要创建一个String trString
,其中包含<tr class="test1"
那样trString = "Test Text Test Text2 Test Title 1 Test Title 2 Test Title 3"
我该怎么做?
我尝试使用html解析器,但它似乎删除了标题
答案 0 :(得分:1)
使用jsoup将HTML解析为DOM,然后使用CSS选择器*[title]
获取具有title属性的所有元素的列表。
jsoup实现了WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。
- 从网址,文件或字符串中抓取并解析HTML
- 使用DOM遍历或CSS选择器查找和提取数据