我有xquery
这样的一系列单词(以及交易,搜索,商业)。现在我想在文档(如pdf,doc,ppt)以及xml
文件中搜索此序列。如果任何文档中的任何单词匹配,则应返回该文档的URI
。使用Marklogic
在xquery
中执行此操作的最有效方法是什么?
答案 0 :(得分:0)
听起来第一个问题是用户提供的字符串标记单词。这是使用cts:tokenize
http://docs.marklogic.com/5.0doc/docapp.xqy#display.xqy?fname=http://pubs/5.0doc/apidoc/SearchBuiltins.xml&category=SearchBuiltins&function=cts:tokenize
cts:tokenize('now is the time')[. instance of cts:word]
获得完成后,可以将它们与cts:word-query
构造函数和cts:search
一起使用,或者您可以扩展高级搜索API来处理此问题:可能使用search:resolve
{ {3}}
当然,任何二进制内容(pdf,doc,ppt)都需要先进行文档转换:http://docs.marklogic.com/5.0doc/docapp.xqy#display.xqy?fname=http://pubs/5.0doc/apidoc/searchapi.xml&category=Search&function=search:resolve