可以使用Sphinx在一个句子中搜索单词。例如,我们有下一个文本:
Васямолодец,съелогурец,т.к。 проголодался。 Такиедела。
如果我搜索
молодец SENTENCE огурец
我找到了这个文字。如果我搜索
молодец SENTENCE проголодался
我找不到这个文字,因为短语т.к.
中的点被视为句子的结尾。
我怎么看,在Sphinx's sources中对分隔符进行了硬编码。
我的问题是如何改善判刑的检测?对我来说更好的方法是使用Yandex的Tomita解析器或另一个智能检测句子的nlp库。
答案 0 :(得分:1)
使用Yandex的Tomita解析器将文本拆分为句子。我们得到的文字由" \ n"。
分割全部删除"。","!","?"从每个句子中留下最后一个。
使用此预处理数据构建Sphinx索引。