我正在研究一个项目,我需要得到一个给定单词的根(词干)。如您所知,不使用字典的词干算法并不准确。我也尝试了WordNet,但这对我的项目并不好。我找到了phpmorphy项目,但它不包含Java中的API。
此时我正在寻找具有不同形式的英语单词的数据库或文本文件。例如:
跑步跑... 包括包括... ...
感谢您的帮助或建议。
答案 0 :(得分:8)
您可以下载LanguageTool(免责声明:我是维护者),它附带一个二进制文件english.dict
。 The LanguageTool Wiki描述了如何将该文件转储为文本文件:
java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict
对于run
,该文件将包含以下内容:
ran run VBD
run run NN
run run VB
run run VBN
run run VBP
running run VBG
runs run NNS
runs run VBZ
第一列是变形形式,第二列是基本形式,第三列是根据(稍微扩展)Penn Treebank tagset的词性标记。