字段索引仅在合并后更新

时间:2019-02-19 12:16:45

标签: marklogic marklogic-9

我创建了一个简单的字段索引,如下所示:

我正在创建一个包含元素content和两个子元素headerbody的文档。第二个请求使用字段索引查找所有值并测试它是否包含单词Body。正如预期的那样。然后,我将在没有body元素的情况下更新我的文档,并再次请求字段索引字。字段索引仍然包含单词Body。这是我的测试脚本:

xquery version "1.0-ml";

xdmp:document-insert("test.xml", 
  <test>
    <title>not found</title>
    <content>
      <header>Found</header>
      <body>Body</body>
    </content>
  </test>
);
fn:exists(fn:index-of(
  cts:field-words("root_test", (), ("collation=http://marklogic.com/collation/de/S1")), 
  "Body"
)) = fn:true();

xdmp:document-insert("test.xml", 
  <test>
    <title>not found</title>
    <content>
      <header>Found</header>
    </content>
  </test>
);
fn:empty(fn:index-of(
  cts:field-words("root_test", (), ("collation=http://marklogic.com/collation/de/S1")),
  "Body"
)) = fn:true()

我期望以下输出:

true
true

但是我真正得到的是:

true
false

仅当我在更新(第二次插入)后执行手动合并时,Body一词将从字段索引中删除。

我在这里做错什么了吗?使用9.0-8

1 个答案:

答案 0 :(得分:2)

词库(Lexicon)不会跟踪特定的文档实例-这样做会非常昂贵-因此,直到合并后,它才能清除有关已删除词的信息。单词词典,用于查询建议并协助某些通配符查询;您不应该指望它们来提供有关语料中是否存在特定单词的准确信息。

如果想知道特定单词是否在语料库中,请对单词查询进行估算,例如xdmp:estimate(cts:search(doc(),cts:word-query("Body",("unstemmed","case-insensitive","diacritic-insensitive"))))。但是,这不会给您与归类相同的相等约束,因为搜索是基于代码点的,并且不会折叠兼容字符等。