我在哪里可以获得带有结构化数据的英语词典?

时间:2010-09-25 15:51:50

标签: open-source resources phonetics

我想以结构化格式(如TXT,XML或SQL)下载英语词典 - 而不仅仅是word list

具体来说,我需要语音发音词性(不需要定义)。

令人惊讶的是,我无法在任何地方找到这个。 Wiktionary可用for download,但它本身只是MediaWiki文章。抓取所有文章并提取语音和词性将是一项巨大的练习。

这可以在任何地方使用吗?我不介意付钱。

编辑:有些人问过我想做什么。我的迫切需要只是好奇心,例如“最常见的双音节动词是什么?”。最终,我的希望是帮助您找到可用域名的工具,并通过配对正确的词性和语音匹配的奖励积分来实现。

注意:在English Language and Usage上交叉发布。

5 个答案:

答案 0 :(得分:17)

转到http://www.speech.cs.cmu.edu/cgi-bin/cmudict,您会在https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/找到发音词典的下载页面

最新版本目前为cmudict.0.7a。

这是我目前用于实现http://www.haikuvillage.com的音节计数器的内容。它在Ruby中,如果有帮助,我很乐意为你开源。

答案 1 :(得分:8)

公共领域中具有高度结构化格式的词性词典:http://icon.shef.ac.uk/Moby/mpos.html

每一行都是一个条目,以×分隔,左边是单词值,右边是词性值(动词等)。简单的文本文件。

答案 2 :(得分:6)

Wordnet是我所知道的最好的词典之一。也许你会在那里找到一些东西: http://wordnet.princeton.edu/wordnet/related-projects/

答案 3 :(得分:2)

Portman,虽然我使用SpellChecker tool from DevExpress我知道存在the OpenOffice dictionaries我很确定他们有一个定义良好的数据结构。我建议您将其与任何免费/付费的文本到语音工具结合使用。

希望有所帮助,

答案 4 :(得分:1)

这不是您问题的直接答案,但Double Metaphone算法非常擅长为搜索引擎应用程序服务器(例如Solr和其他人)查找单词或短语匹配。

我无法分辨你对此的用途是什么,所以我无法判断我的建议是否有用。如果它接近您的预期用途,则关于Double Metaphone的维基百科页面列出了大约十几个可能值得探索的实现。

http://en.wikipedia.org/wiki/Double_Metaphone

相关问题