如何从所有HTML标签提取内容?

时间:2019-12-24 01:14:18

标签: java html regex parsing

样本输入:

<html><a>hello</a><h1><h4>nestedHello</h4><h3>nestedWorld</h3><h6><br>top</br></h6></h1><br>world</br></html>

示例输出:

hello
nestedHello
nestedWorld
top
<br>top</br>
<h4>nestedHello</h4><h3>nestedWorld</h3><h6><br>top</br></h6>
world
<a>hello</a><h1><h4>nestedHello</h4><h3>nestedWorld</h3><h6><br>top</br></h6></h1><br>world</br>

你们会怎么做?我不想要解决方案,而是一些提示。我试图用正则表达式解决它,但是我什么也没想出来。也许递归可以吗?但是怎么办呢?

0 个答案:

没有答案