用任何“符号”搜索狮身人面像打破了搜索引擎?

时间:2012-07-30 08:05:32

标签: search unicode utf-8 lucene sphinx

出于某种原因,当我在查询中的任何位置键入符号时,

. ! ^ ,或其他任何内容,搜索引擎都会中断。

但是当我输入“#”时,搜索引擎不会中断。

那是因为我修改了charset来处理#hashtag s。

charset_table = 0..9, A..Z->a..z, _, a..z, U+23, U+410..U+42F->U+430..U+44F, U+430..U+44F

如何解决这个问题,以便我可以在查询中包含其他符号以及使标签工作? (现在主题标签可以创建奇迹,而sphinx将其视为普通关键字)

顺便说一句,hashtag的unicode是“U + 0023”

1 个答案:

答案 0 :(得分:0)

我不确定.,(Sphinx具体?),但!^(其中包括+ - && || ! ( ) { } [ ] ^ " ~ * ? : \)是Lucene特殊字符,你需要escape them。请参阅页面底部的转义特殊字符