狮身人面像 - 将utf8角色打破空间

时间:2016-11-24 13:55:26

标签: php sphinx

我有一个字符串 seulelaprésentation

当我执行短语搜索“pr”时,sphinx会匹配此字符串但不应该,因为其中没有 pr 字样。

但是当搜索“pre”时,它不匹配。

问题似乎是这个utf8字符é。 Sphinx在索引时忽略此字符,并将此字符之前的字符串视为单词。

以下是匹配模式Sphinx的示例SPH_MATCH_EXTENDED查询:

@name: "pr"

有没有解决方法呢?

1 个答案:

答案 0 :(得分:1)

不是这方面的专家,但是对于狮身人面像,你必须通过charset_table

明确列出哪些字符被认为是“单词”的一部分(其他一切被认为是分隔符)

http://sphinxsearch.com/docs/current/conf-charset-table.html

所以你需要在charset_table中包含这些字符,以便它们可以编入索引(有或没有'折叠'到非方言字符)

这是一个维基页面 http://sphinxsearch.com/wiki/doku.php?id=charset_tables 列出一些东西,你可以复制/粘贴。