Xquery使用<a> tags</a>解析文本

时间:2010-06-25 06:46:10

标签: html xml xquery html-parsing html-content-extraction

我正在使用XQuery从html页面中提取内容。 html体结构就是这样的:

 <td>
      <a href ="hw1">xyz </a>
          Hello world 1 
        <a href="hw2">Helloworld 2</a>
          Helloworld 3         
 </td>

我提取文本的XQuery表达式如下:

  //a[starts-with(@href,'hw1')]/following-sibling::text()

这个表达式给了我:

Helloworld 1 Helloworld 2 Helloworld 3

我想以这种方式拥有它: Helloworld 1 Helloworld 2 Helloworld 3或 Helloworld 1 Helloworld 3

如何指定解析标记所包含的文本

1 个答案:

答案 0 :(得分:0)

我不太清楚你在寻找什么,但是

let $content := 
 <td>
      <a href ="hw1">xyz </a>
          Hello world 1 
        <a href="hw2">Helloworld 2</a>
          Helloworld 3         
 </td>

return $content/text()

直接在&lt; td&gt;下为您提供文本节点。我看到你得到的和你想要的东西之间没有区别......也许你的帖子丢失了一些格式?