我需要最详尽的英语单词列表,我可以找到几种类型的语言处理操作,但我在互联网上找不到质量足够好的任何内容。
英语中有1,000,000个单词,包括外语和/或技术单词。
您能否建议可以从互联网上下载这个可能有点分类的来源(或接近500k字)?您在语言处理应用程序中使用了哪些输入?
答案 0 :(得分:26)
Kevin's wordlists是我所知道的最好的单词列表。
如果你想知道名词,动词等,同义词等等,WordNet会更好。
答案 1 :(得分:8)
`The "million word" hoax rolls along',我知道了;-)
如何使单词列表更长:给定名词,添加以下任何内容:non,pseudo,semi,-arific,-geek,...;动词等mutatis mutandis
答案 2 :(得分:4)
我在Purdue上进行了受控/自然英语和语言领域知识处理的研究。
我会看看尝试项目:http://attempto.ifi.uzh.ch/site/description/这是一个帮助建立受控自然英语的项目。
您可以在http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip下载整个单词词典,它有~100,000个自然英语单词。
您还可以为特定领域的单词提供自己的词典,这就是我们在研究中所做的。他们提供Web服务来解析和格式化自然英语文本。
答案 3 :(得分:3)
谁告诉你有100万字?根据{{3}},牛津英语词典只有600,000。 OED试图包括所有使用的技术和俚语。
答案 4 :(得分:2)
直接尝试维基百科的摘录:http://dbpedia.org
答案 5 :(得分:0)
没有太多基础词(171k根据这个 - oxford。这是我记得在大学的CS课程中被告知的。 但如果包括所有形式的单词 - 那么它会大大增加。
那说,为什么不自己做一个?获取Wikipedia转储并解析它并创建一组您遇到的所有令牌。
期待拼写错误 - 就像所有人群来源一样,会有错误。