识别单词的不同形式(搜索相似的单词)

时间:2013-03-23 13:42:18

标签: python search nltk

我的文字文件包含从网页中提取的大量单词。现在我打算构建一个简单的搜索来识别文本文件中的匹配项。例如,如果SEARCH参数是“3 Musketeers”,我正在寻找识别搜索的所有可能匹配,如下所述,

Muskketeers3;   
three muskteers;
3Muskters;
Musketeers3;

我不确定,从哪里开始。我可以在python中编写一些代码并开始查看NLTK及其wordnet。我在这里寻找一些最佳方法的建议。

任何想法!

2 个答案:

答案 0 :(得分:1)

答案 1 :(得分:0)

我确实查看了链接https://stackoverflow.com/questions/682367/good-python-modules-for-fuzzy-string-comparisonwhich有一个可用的字符串比较库列表。但复杂的是,如何获得所有形式的单词表示形式的所有可能性,如3,3,iii ...像wordnet ...喜欢你的指导