应用错误收集

时间：2010-01-22 08:56:43

标签： java sql mysql database indexing

我正在阅读SOLR并将MySQL数据库索引到SOLR中。

“tokenize”和“un-tokenize”是什么意思？

当字段“规范化”时，它意味着什么？

我知道规范化数据库的方式和意义，但是一个字段？如何简化一个简单的字段？

由于

答案 0 :(得分：5)

他们的意思是“标记化”和 “非标记化”？

对字段进行标记可以进行全文搜索，即查找字段中任何位置出现的任何单词。只有当您拥有完整且完全匹配时，才会找到未填充的字段，例如：如果该字段的内容为“蓝月亮”，那么只有当您搜索“蓝月亮”时才会找到它，而不是只搜索“蓝色”时。

字段是什么意思 “归一化”？

这很可能是指Unicode normalization - Unicode为变音符号提供了单独的代码点，例如U + 0060是`（重音符号），所以重音字母è可以是一个Unicode字符（U + 00E8）或由两个字母组成（U + 0060和U + 0065）。但是当然你想要在搜索è时找到它们。

答案 1 :(得分：3)

标记生成器将字符流拆分为单词，这些单词是搜索的原子单位。字符串可以根据空格，单词边界等进行拆分。这些单词通常通过第二阶段的过滤器传递，这些过滤器对单词应用其他变换（如soundex代码，搬运工词干等）。结果是可以有效比较的单词的标准化表示。

例如：“猫吃奶酪！”可能会被标准化为：1）猫2）吃3）奶酪

“the”被删除（禁用词），cat现在是单数（词干），标点符号已经消失，而且这些词语更低。