实际上我的问题是我想从文档中提取给wordnet结果的单词,以便只采用文档中存在的单词。但结果仍然是空的我认为这是因为单词是不同的格式。
如何以基本形式更改文档中的文字。
例如,如果我有“car”这个词,我会通过wordnet找到它的超名词,那么我只保留文件中的文字,我该怎么做?
答案 0 :(得分:0)
斯坦福有一个用Java编写的词形变换器,我实际上已用于我的信息检索课程,但它不能立即使用。您可以download it here,我建议您在使用前阅读文档。
现在你所要做的就是在索引它之前给这个词提供引理词。减少到相同引理(根形式)的单词应该索引到字典中的相同位置。