我想以结构化格式(如TXT,XML或SQL)下载英语词典 - 而不仅仅是word list 。
具体来说,我需要语音发音和词性(不需要定义)。
令人惊讶的是,我无法在任何地方找到这个。 Wiktionary可用for download,但它本身只是MediaWiki文章。抓取所有文章并提取语音和词性将是一项巨大的练习。
这可以在任何地方使用吗?我不介意付钱。
编辑:有些人问过我想做什么。我的迫切需要只是好奇心,例如“最常见的双音节动词是什么?”。最终,我的希望是帮助您找到可用域名的工具,并通过配对正确的词性和语音匹配的奖励积分来实现。
注意:在English Language and Usage上交叉发布。
答案 0 :(得分:17)
转到http://www.speech.cs.cmu.edu/cgi-bin/cmudict,您会在https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/找到发音词典的下载页面
最新版本目前为cmudict.0.7a。
这是我目前用于实现http://www.haikuvillage.com的音节计数器的内容。它在Ruby中,如果有帮助,我很乐意为你开源。
答案 1 :(得分:8)
公共领域中具有高度结构化格式的词性词典:http://icon.shef.ac.uk/Moby/mpos.html
每一行都是一个条目,以×分隔,左边是单词值,右边是词性值(动词等)。简单的文本文件。
答案 2 :(得分:6)
Wordnet是我所知道的最好的词典之一。也许你会在那里找到一些东西: http://wordnet.princeton.edu/wordnet/related-projects/
答案 3 :(得分:2)
Portman,虽然我使用SpellChecker tool from DevExpress我知道存在the OpenOffice dictionaries我很确定他们有一个定义良好的数据结构。我建议您将其与任何免费/付费的文本到语音工具结合使用。
希望有所帮助,
答案 4 :(得分:1)
这不是您问题的直接答案,但Double Metaphone算法非常擅长为搜索引擎应用程序服务器(例如Solr和其他人)查找单词或短语匹配。
我无法分辨你对此的用途是什么,所以我无法判断我的建议是否有用。如果它接近您的预期用途,则关于Double Metaphone的维基百科页面列出了大约十几个可能值得探索的实现。