我正在尝试创建一个XPath查询,每次都会获得549个字符的文本。文本应与相关主题相关,在下面的示例中,它是oranges
或apples
或pears
。如果页面上不存在包含这些单词的元素,那么我希望XPath查询更容易在页面上找到目标/不太具体的文本。
因此,为了澄清,我正在尝试创建一个XPath查询,找到包含特定类型文本的元素,如果使用下面的查询找到549个或更多字符,那么我们就完成了,如果没有找到或者如果返回的文本少于549个字符,我希望XPath查询在段落形式的页面上获取任何文本(除了按钮,链接,菜单等文本之外的任何内容都可以工作)并返回此文本的549个字符,如果结果字符串小于549个字符,我想用以下内容连接这两个查询:...
在中间。
substring(normalize-space(//*[self::p or self::div][contains(text(),'apples') or contains(text(),'oranges') or contains(text(),'pears')]), 0, 549)
我一直试图解决这个问题很长一段时间,我很感激任何建议!
非常感谢提前!
答案 0 :(得分:7)
是。 xpath中有一个string-length()
函数可以在谓词中使用:
substring(normalize-space(//*[string-length( text()) > 549 and (... other conditions ...)]),0,549)
有关如何执行条件以确定是否需要添加省略号,请参阅“Is there an "if -then - else " statement in XPath?”。
改编上述SO问题的例子:
if (fn:string-length(normalize-space(//*[self::p or self::div][contains(text(),'apples']) > 549)
then (concat( fn:substring(normalize-space(//*[self::p or self::div][contains(text(),'apples']), 0, 5490), "...") )
else (normalize-space(//*[self::p or self::div][contains(text(),'apples']))
在我看来,在XPath中真的很复杂。如果您可以使用XQuery,那么您将拥有更易读的转换:
for $text in normalize-space(//*[self::p or self::div])
where $text[contains(text(),'apples' or ...]
return
if (string-length( $text) > 549) then
concat( substring( $text, 0, 549), "...")
else
$text
我怀疑这实际上可以通过多个嵌套的for语句进一步优化(为了可读性,维护)来处理你需要的各种成果。
如果使用XSL:
<xsl:template match="//*[self::p or self::div][contains(text(),'apples' or ...]">
<xsl:variable name="text" select="normalize-space( . )" />
<xsl:choose>
<xsl:when test="string-length( $text)">
<xsl:value-of select="substring( $text, 0, 549)"/>...
</xsl:when>
<xsl:otherwise>
<xsl:value-of select="$text"/>
</xsl:otherwise>
</xsl:choose>
</xsl:template>
您还可以使用matches()
xpath函数,通过构造正则表达式来避免拥有这么多contains()
谓词:
matches( //*[self::p or self::div][matches(text(),'(apples|oranges|bananas)'])
最后,请注意在XPath中使用//
和*
的效率非常低,如果您的文档对其有任何影响,您会看到性能影响。我有一个痒告诉我有一种优化方法,但不幸的是我没有时间研究。