我正试图从jSoup中的HTML元素中提取文本,就像在我的浏览器中显示innerText属性一样。
但两者在间距/换行方面存在一些差异。
以下是我试图从中提取文本的元素:
<td headers="header2">
ATM<br>
29JUN15 CASHNET 11:13:17<br>
A96013498<br>
ATM<br>
</td>
我刚刚从浏览器检查工具中复制了该元素。
虽然这个元素来自控制台的innerText给了我这个:
"ATM
29JUN15 CASHNET 11:13:17
A96013498
ATM
"
但是我试图通过Jsoup提取相同内容。这是我的代码,用<br>
替换所有"\n"
,并从cellEle中提取文本,这是同一个HTML元素。
cellEle //my html element
cellEle.select("br").append("\\n");
cellEle.select("p").append("\\n\\n");
String text = cellEle.html().replace("\\n", "\n");
text = text.replaceAll(" ", " ");
text = text.trim();
String returnText = Jsoup.clean(text, "",Whitelist.none(),new Document.OutputSettings().prettyPrint(false));
但是这回复了我的相同元素的文字:
"ATM
29JUN15 CASHNET 11:13:17
A96013498
ATM"
观察每行后的额外空间,我该如何更改。我希望输出与浏览器控制台中的innerText()完全相同。