之前已经以各种方式提出过这个问题,但我想知道具有自动搜索词建议经验的人是否可以就最有用和最有效的方法提供建议。这是场景:
我刚开始在一个网站上开一本书,这是一本术语词典(大约有1000个条目,平均有300个字的解释),其中很多都相当模糊,很可能很多网站的访问者不知道如何拼写单词。发布商希望为每个条目提供全文搜索。所以,我希望实现一个带拼写纠正的搜索引擎。主站点可能是在带有MySQL数据库的PHP框架(或可能是Django)中完成的。
任何有此领域经验的人都可以提供以下建议:
我担心我的语料库的特殊性,并且不希望谷歌开始建议与本书无关的事情。我也不确定是否应该尝试使用metaphone比较和Levenshtein比较,或者其他一些技术组合来捕捉拼写错误和拼音拼写。
答案 0 :(得分:3)
您可能需要考虑Apache Solr,它是Lucene的Web服务封装,并在像Tomcat这样的J2EE容器中运行。你会得到术语建议,拼写检查,移植,阻止等等。这真的很不错。
请参阅here以获取与查询相关的功能的完整列表。
我不建议将Google Suggest用于这样的专业语料库,而使用Solr则不需要它。
希望这有帮助。