看来我的Google-fu让我失望了。
有没有人知道一个只包含单词基础的免费词汇词典?所以,对于像草莓这样的东西,它会有草莓。但是不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在Java中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的内容都会有所帮助。
答案 0 :(得分:5)
这被称为词形还原,你称之为“词的基础”被称为引理。斯坦福POS标记器中的morpha
及其reimplementation执行此操作。但是,两者都需要使用POS标记输入来解决自然语言中固有的歧义。
(POS标记意味着确定单词类别,例如名词,动词。我一直假设你想要一个处理英语的工具。)
修改:由于您打算将其用于搜索,因此以下是一些提示:
(之前的评论是基于我自己的研究;我在硕士论文中写了关于非常嘈杂的数据的搜索引擎中的词形还原。)
答案 1 :(得分:1)
这并不是你所要求的,但Wikipedia on stemming具有启发性,并包含许多免费词干程序的链接。大概应该包括词干列表
答案 2 :(得分:1)
http://www.puzzlers.org/dokuwiki/doku.php?id=solving:wordlists:about:start
此页面上的Miriam Websters Collegiate第9版链接包含仅包含单词形式的单词文件。草莓在那里,草莓不在。同样“添加”在那里“添加”不是。不确定这是否是你所追求的,但它对我有帮助。