自然英语单词

时间:2009-01-16 14:05:57

标签: nlp

我需要最详尽的英语单词列表,我可以找到几种类型的语言处理操作,但我在互联网上找不到质量足够好的任何内容。

英语中有1,000,000个单词,包括外语和/或技术单词。

您能否建议可以从互联网上下载这个可能有点分类的来源(或接近500k字)?您在语言处理应用程序中使用了哪些输入?

6 个答案:

答案 0 :(得分:26)

Kevin's wordlists是我所知道的最好的单词列表。

如果你想知道名词,动词等,同义词等等,

WordNet会更好。

答案 1 :(得分:8)

`The "million word" hoax rolls along',我知道了;-)

如何使单词列表更长:给定名词,添加以下任何内容:non,pseudo,semi,-arific,-geek,...;动词等mutatis mutandis

答案 2 :(得分:4)

我在Purdue上进行了受控/自然英语和语言领域知识处理的研究。

我会看看尝试项目:http://attempto.ifi.uzh.ch/site/description/这是一个帮助建立受控自然英语的项目。

您可以在http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip下载整个单词词典,它有~100,000个自然英语单词。

您还可以为特定领域的单词提供自己的词典,这就是我们在研究中所做的。他们提供Web服务来解析和格式化自然英语文本。

答案 3 :(得分:3)

谁告诉你有100万字?根据{{​​3}},牛津英语词典只有600,000。 OED试图包括所有使用的技术和俚语。

答案 4 :(得分:2)

直接尝试维基百科的摘录:http://dbpedia.org

答案 5 :(得分:0)

没有太多基础词(171k根据这个 - oxford。这是我记得在大学的CS课程中被告知的。 但如果包括所有形式的单词 - 那么它会大大增加。

那说,为什么不自己做一个?获取Wikipedia转储并解析它并创建一组您遇到的所有令牌。

期待拼写错误 - 就像所有人群来源一样,会有错误。