Question

好的我尝试做一些网页抓取，我知道如何选择部分网站，段落，类...... 现在，是否可以选择文本，提取文本并将其放在HTML之间。

示例：

This is first paragraph.
This is second paragraph.

我想把它当作一个子弹点列表。

<ul>
    <li>This is first paragraph</li>
    <li>This is second paragraph.</li>
</ul>

或者在div中

<div id="first">This is first paragraph</div> 
<div id="second">This is second paragraph.</div>

Answer 1

你不能在XPath中创建一个dom元素，但你可以做一些字符串操作。

E.g。如果您选择示例的XPath表达式为'// p [1]'和'// p [2]'，则可以创建如下列表：

concat(
"<ul>",
   "<li>", //p[1],  "</li>",
   "<li>", //p[2], "</li>",
"</ul>")

（假设段落文本不包含特殊字符，例如＆lt;或＆amp;）

还有XQuery，它就像XPath的扩展，你可以写：

<ul>
    <li>{//p[1]}</li>
    <li>{//p[2]}</li>
</ul>

创建那个html。

Answer 2

尝试使用函数tokenize然后使用xsl：for-each;它应该没问题。