从文档

时间:2017-11-28 01:08:17

标签: java nodes document

更新(请在下面首先阅读上下文)

我已经找到了如何解决下面的问题,通过简单地在两个不同的标签上调用replaceAll两次,但现在我遇到了另一个标签问题:

Turn right onto Waialae Ave<div style="font-size:0.9em">Destination will be on the left</div>

我不想仅仅为了让程序能够删除所有格式化标签而不仅仅是粗体和样式标签。因此,我的程序是否有办法检测&lt;符号并删除其中包含的所有内容,包括符号,直到结束符号&gt;?这将非常有帮助。

我正在使用Google Maps API向用户提供信息;但是,这样做时,它会打印出粗体格式标签,如下所示:

Head <b>northwest</b> toward <b>Kalaniiki St</b>

我试图通过使用replaceAll方法来删除它:

String instructions = eElement.getElementsByTagName("html_instructions").item(0).getTextContent().toString();
instructions = instructions.replaceAll("[^A-Za-z0-9]", " ");

但是,这只能摆脱&lt;和&gt;符号而不是角色b。我如何更改replaceAll方法的格式,以便它摆脱粗体标签?请告诉我。

谢谢!

1 个答案:

答案 0 :(得分:0)

我不知道只使用str.replaceAll()方法执行此操作的合理方法。如果我想出一些只使用它的东西,我会更新。

以下代码在运行str.replaceAll()之后工作。它将获取html标记内的剩余文本。你仍然需要str.replaceAll()的原因是摆脱&nbsp之类的东西......我在开头添加了一个空格,这将阻止单词被合并。根据规格,可能需要稍后修剪此空间。

do{
   str += (" " + (str.substring(str.indexOf(">") + 1, str.indexOf("<")); 
} while(str.indexOf("<") != -1);