我希望分析几个(大约30,000个)小文档,并确定它们是否包含对某个主题的引用,例如术语" safety"。它很容易做一个string.find()或标记化原始文本和比较列表,但我希望搜索词是动态的,所以如果用户键入" safety",我的程序识别出该单词的所有形式。所以"安全"会比较像#34; safe","安全","更安全","最安全"等来搜索原始文本。我希望用户能够投入任何条款,并且有合理的期望它会在源文件中找到相关条款。
我已经看过了词干和词汇化,但是词干还带来了一些疯狂的结果(即"安全"回归" safeti"而#34;安全"源于"安全")和lemmatizing往往返回给定的搜索词。我已经尝试了这里显示的两个建议,结果相同:
How to list all the forms of a word using NLTK in python
任何帮助将不胜感激。如果所有其他方法都失败了,我只会在用户输入时在运行时构建一个术语列表。