我正在尝试使用regexp_filter替换特定的单词后缀,因为我发现了stem_en和lemmatizer会产生意想不到的结果。
我试过
regexp_filter = (.*)(graphical|graphic|graph) => \1graphy
但由于某种原因,搜索“传记”与“传记”不匹配
我在regex101中查看了我的正则表达式的工作原理:
https://regex101.com/r/zM9jY5/1
至少找到模式和群组
我在sphinx中检查了一个简单/直接的替换
regexp_filter = Biographical => Biography
的工作原理。
很明显,正则表达式模式匹配并且显然regexp_filter替换工作正常。不知何故使用
(.*)(graphical|graphic|graph) => \1graphy
无法识别群组或模式吗?