如何改善Sphinx中句子的检测?

时间:2016-09-12 08:57:48

标签: full-text-search sphinx full-text-indexing

可以使用Sphinx在一个句子中搜索单词。例如,我们有下一个文本:

  

Васямолодец,съелогурец,т.к。 проголодался。 Такиедела。

如果我搜索

молодец SENTENCE огурец

我找到了这个文字。如果我搜索

молодец SENTENCE проголодался

我找不到这个文字,因为短语т.к.中的点被视为句子的结尾。

我怎么看,在Sphinx's sources中对分隔符进行了硬编码。

我的问题是如何改善判刑的检测?对我来说更好的方法是使用Yandex的Tomita解析器或另一个智能检测句子的nlp库。

1 个答案:

答案 0 :(得分:1)

使用Yandex的Tomita解析器将文本拆分为句子。我们得到的文字由" \ n"。

分割

全部删除"。","!","?"从每个句子中留下最后一个。

使用此预处理数据构建S​​phinx索引。