我正在使用Apache solr,我正在尝试使用语音过滤器工厂,我已经尝试了所有可用于solr.PhoneticFilterFactory的编码器,但它们都不支持印度语。是否还有其他过滤器/方法,以便我可以获得印度语,例如印地语,泰米尔语,孟加拉语等的语音表示
如果没有,那么我们如何修改现有过滤器以支持这些语言。
答案 0 :(得分:0)
您是否尝试过新版Beider Morse过滤器工厂,该工厂刚刚在3.6版本中添加并且(唉)还没有完整记录?
https://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.BeiderMorseFilterFactory
它是为中欧和东欧姓氏的语音搜索而开发的,但它也许适用于其他语言。我个人发现它比Soundex或其他更古老的声音方法更好用。