词基/词典

时间:2010-10-26 15:19:25

标签: java dictionary nlp stemming

看来我的Google-fu让我失望了。

有没有人知道一个只包含单词基础的免费词汇词典?所以,对于像草莓这样的东西,它会有草莓。但是不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在Java中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的内容都会有所帮助。

3 个答案:

答案 0 :(得分:5)

这被称为词形还原,你称之为“词的基础”被称为引理。斯坦福POS标记器中的morpha及其reimplementation执行此操作。但是,两者都需要使用POS标记输入来解决自然语言中固有的歧义。

(POS标记意味着确定单词类别,例如名词,动词。我一直假设你想要一个处理英语的工具。)

修改:由于您打算将其用于搜索,因此以下是一些提示:

  • 简单的英语词汇在搜索引擎世界中享有盛誉。有时它会起作用,通常不会。
  • 自动拼写纠正可能会更好。这就是Google的作用。但是,如果你想做正确的话,它在计算时间方面是昂贵的。
  • 词形还原可能会带来好处,但可能只有当您索引并搜索两个单词和词条时才有效。 (同样的建议也适用于干预。)
  • 这是一个plugin for Lucene进行词形还原。

(之前的评论是基于我自己的研究;我在硕士论文中写了关于非常嘈杂的数据的搜索引擎中的词形还原。)

答案 1 :(得分:1)

这并不是你所要求的,但Wikipedia on stemming具有启发性,并包含许多免费词干程序的链接。大概应该包括词干列表

答案 2 :(得分:1)

http://www.puzzlers.org/dokuwiki/doku.php?id=solving:wordlists:about:start

此页面上的Miriam Websters Collegiate第9版链接包含仅包含单词形式的单词文件。草莓在那里,草莓不在。同样“添加”在那里“添加”不是。不确定这是否是你所追求的,但它对我有帮助。