如何使用java中的jsoup用字符替换html标签

时间:2013-10-04 08:11:56

标签: java html tags jsoup

我正在使用java代码从Web中提取信息以进行处理,我使用jsoup库来清理我从网站获得的响应中的html标记。现在,为了从这些代码中提取信息,我必须用很少使用的字符替换html标签,例如'〜'。

所以这是我的问题:

我如何转换它:

<h1>This is heading 1</h1>
<h2>This is heading 2</h2>
<h3>This is heading 3</h3>
<h4>This is heading 4</h4>
<h5>This is heading 5</h5>
<h6>This is heading 6</h6>

进入这个:

   ~This is heading 1~
   ~This is heading 2~
   ~This is heading 3~
   ~This is heading 4~
   ~This is heading 5~
   ~This is heading 6~

使用jsoup

1 个答案:

答案 0 :(得分:1)

String cssSelector = //add your selector. from the example you include i cant get a proper selector.
Document doc = Jsoup.parse("html")
Elements elms = doc.select(cssSelector)
for(Element elm:elms){
     System.out.println("~" + elm.text() + "~")
}

更新

如果您想要替换所有元素,可以执行此操作:

html = html.replaceAll("<[^>]*>","~")