Question

我正在使用包含html和文本的文档，如下面的代码：

text1
<br/>
text2
<a><b>text2</b></a>
<br/>
<br/>
text3

我想要做的是依次提取每一行。如下例所示：

1) text1
2) text2 text2
3) text3

在一个数组中。我该怎么做？

由于

Answer 1

一种简单的方法是选择所有文本节点和所有br标签：

//text() | //br

然后遍历结果以使用连接字符串创建数组。