我的文字文件包含从网页中提取的大量单词。现在我打算构建一个简单的搜索来识别文本文件中的匹配项。例如,如果SEARCH参数是“3 Musketeers”,我正在寻找识别搜索的所有可能匹配,如下所述,
Muskketeers3;
three muskteers;
3Muskters;
Musketeers3;
我不确定,从哪里开始。我可以在python中编写一些代码并开始查看NLTK及其wordnet。我在这里寻找一些最佳方法的建议。
任何想法!
答案 0 :(得分:1)
看一下FuzzyWuzzy库
答案 1 :(得分:0)
我确实查看了链接https://stackoverflow.com/questions/682367/good-python-modules-for-fuzzy-string-comparisonwhich有一个可用的字符串比较库列表。但复杂的是,如何获得所有形式的单词表示形式的所有可能性,如3,3,iii ...像wordnet ...喜欢你的指导