Jsoup text()与HTML元素.innerText()

时间:2015-06-29 09:47:49

标签: javascript html jsoup

我正试图从jSoup中的HTML元素中提取文本,就像在我的浏览器中显示innerText属性一样。

但两者在间距/换行方面存在一些差异。

以下是我试图从中提取文本的元素:

<td headers="header2">







                                        ATM<br>

                                        29JUN15 CASHNET 11:13:17<br>

                                        A96013498<br>

                                        ATM<br>


                                    </td>

我刚刚从浏览器检查工具中复制了该元素。

虽然这个元素来自控制台的innerText给了我这个:

"ATM
29JUN15 CASHNET 11:13:17
A96013498
ATM
"

但是我试图通过Jsoup提取相同内容。这是我的代码,用<br>替换所有"\n",并从cellEle中提取文本,这是同一个HTML元素。

cellEle //my html element
cellEle.select("br").append("\\n");
cellEle.select("p").append("\\n\\n");
String text = cellEle.html().replace("\\n", "\n");
text = text.replaceAll("&nbsp;", " ");
text = text.trim();
String returnText = Jsoup.clean(text, "",Whitelist.none(),new Document.OutputSettings().prettyPrint(false));

但是这回复了我的相同元素的文字:

"ATM
 29JUN15 CASHNET 11:13:17
 A96013498
 ATM"

观察每行后的额外空间,我该如何更改。我希望输出与浏览器控制台中的innerText()完全相同。

0 个答案:

没有答案