我正在阅读SOLR并将MySQL数据库索引到SOLR中。
“tokenize”和“un-tokenize”是什么意思?
当字段“规范化”时,它意味着什么?
我知道规范化数据库的方式和意义,但是一个字段? 如何简化一个简单的字段?
由于
答案 0 :(得分:5)
他们的意思是“标记化”和 “非标记化”?
对字段进行标记可以进行全文搜索,即查找字段中任何位置出现的任何单词。只有当您拥有完整且完全匹配时,才会找到未填充的字段,例如:如果该字段的内容为“蓝月亮”,那么只有当您搜索“蓝月亮”时才会找到它,而不是只搜索“蓝色”时。
字段是什么意思 “归一化”?
这很可能是指Unicode normalization - Unicode为变音符号提供了单独的代码点,例如U + 0060是`(重音符号),所以重音字母è可以是一个Unicode字符(U + 00E8)或由两个字母组成(U + 0060和U + 0065)。但是当然你想要在搜索è时找到它们。
答案 1 :(得分:3)
标记生成器将字符流拆分为单词,这些单词是搜索的原子单位。字符串可以根据空格,单词边界等进行拆分。这些单词通常通过第二阶段的过滤器传递,这些过滤器对单词应用其他变换(如soundex代码,搬运工词干等)。结果是可以有效比较的单词的标准化表示。
例如:“猫吃奶酪!”可能会被标准化为:1)猫2)吃3)奶酪“the”被删除(禁用词),cat现在是单数(词干),标点符号已经消失,而且这些词语更低。