如何在Marklogic中搜索文档中的单词序列?

时间:2012-09-06 14:56:04

标签: xquery marklogic

我有xquery这样的一系列单词(以及交易,搜索,商业)。现在我想在文档(如pdf,doc,ppt)以及xml文件中搜索此序列。如果任何文档中的任何单词匹配,则应返回该文档的URI。使用Marklogicxquery中执行此操作的最有效方法是什么?

1 个答案:

答案 0 :(得分:0)

听起来第一个问题是用户提供的字符串标记单词。这是使用cts:tokenize http://docs.marklogic.com/5.0doc/docapp.xqy#display.xqy?fname=http://pubs/5.0doc/apidoc/SearchBuiltins.xml&category=SearchBuiltins&function=cts:tokenize

执行此操作的简单方法
cts:tokenize('now is the time')[. instance of cts:word]

获得完成后,可以将它们与cts:word-query构造函数和cts:search一起使用,或者您可以扩展高级搜索API来处理此问题:可能使用search:resolve { {3}}

当然,任何二进制内容(pdf,doc,ppt)都需要先进行文档转换:http://docs.marklogic.com/5.0doc/docapp.xqy#display.xqy?fname=http://pubs/5.0doc/apidoc/searchapi.xml&category=Search&function=search:resolve