XPath获取特定长度的文本

时间:2013-07-16 22:41:26

标签: xpath

我正在尝试创建一个XPath查询,每次都会获得549个字符的文本。文本应与相关主题相关,在下面的示例中,它是orangesapplespears。如果页面上不存在包含这些单词的元素,那么我希望XPath查询更容易在页面上找到目标/不太具体的文本。

因此,为了澄清,我正在尝试创建一个XPath查询,找到包含特定类型文本的元素,如果使用下面的查询找到549个或更多字符,那么我们就完成了,如果没有找到或者如果返回的文本少于549个字符,我希望XPath查询在段落形式的页面上获取任何文本(除了按钮,链接,菜单等文本之外的任何内容都可以工作)并返回此文本的549个字符,如果结果字符串小于549个字符,我想用以下内容连接这两个查询:...在中间。

   substring(normalize-space(//*[self::p or self::div][contains(text(),'apples') or contains(text(),'oranges') or contains(text(),'pears')]), 0, 549)

我一直试图解决这个问题很长一段时间,我很感激任何建议!

非常感谢提前!

1 个答案:

答案 0 :(得分:7)

是。 xpath中有一个string-length()函数可以在谓词中使用:

substring(normalize-space(//*[string-length( text()) > 549 and (... other conditions ...)]),0,549)

有关如何执行条件以确定是否需要添加省略号,请参阅“Is there an "if -then - else " statement in XPath?”。

改编上述SO问题的例子:

if (fn:string-length(normalize-space(//*[self::p or self::div][contains(text(),'apples']) > 549)
        then (concat( fn:substring(normalize-space(//*[self::p or self::div][contains(text(),'apples']), 0, 5490), "...") )
        else (normalize-space(//*[self::p or self::div][contains(text(),'apples']))

在我看来,在XPath中真的很复杂。如果您可以使用XQuery,那么您将拥有更易读的转换:

for $text in normalize-space(//*[self::p or self::div])
where $text[contains(text(),'apples' or ...]
return
    if (string-length( $text) > 549) then
        concat( substring( $text, 0, 549), "...")
    else
        $text

我怀疑这实际上可以通过多个嵌套的for语句进一步优化(为了可读性,维护)来处理你需要的各种成果。

如果使用XSL:

<xsl:template match="//*[self::p or self::div][contains(text(),'apples' or ...]">
    <xsl:variable name="text" select="normalize-space( . )" />
    <xsl:choose>
        <xsl:when test="string-length( $text)">
            <xsl:value-of select="substring( $text, 0, 549)"/>...
        </xsl:when>
        <xsl:otherwise>
            <xsl:value-of select="$text"/>
        </xsl:otherwise>
    </xsl:choose>
</xsl:template>

您还可以使用matches() xpath函数,通过构造正则表达式来避免拥有这么多contains()谓词:

matches( //*[self::p or self::div][matches(text(),'(apples|oranges|bananas)'])

最后,请注意在XPath中使用//*的效率非常低,如果您的文档对其有任何影响,您会看到性能影响。我有一个痒告诉我有一种优化方法,但不幸的是我没有时间研究。