Question

可以使用Sphinx在一个句子中搜索单词。例如，我们有下一个文本：

Васямолодец，съелогурец，т.к。 проголодался。 Такиедела。

如果我搜索

молодец SENTENCE огурец

我找到了这个文字。如果我搜索

молодец SENTENCE проголодался

我找不到这个文字，因为短语т.к.中的点被视为句子的结尾。

我怎么看，在Sphinx's sources中对分隔符进行了硬编码。

我的问题是如何改善判刑的检测？对我来说更好的方法是使用Yandex的Tomita解析器或另一个智能检测句子的nlp库。

Answer 1

使用Yandex的Tomita解析器将文本拆分为句子。我们得到的文字由＆＃34; \ n＆＃34;。

分割

全部删除＆＃34;。＆＃34;，＆＃34;！＆＃34;，＆＃34;？＆＃34;从每个句子中留下最后一个。

使用此预处理数据构建Sphinx索引。