NLTK与其他语言同义

时间:2013-07-01 05:41:03

标签: python-2.7 nlp nltk

现在我正在尝试比较两个不同文件中的单词,一个英文,一个中文。我必须确定是否有任何英语单词与中文单词有关,如果是,则它们是相同还是一个是另一个的上位词。我可以使用英语同义词,但我能怎样处理中文单词?

1 个答案:

答案 0 :(得分:1)

看起来台湾的一所大学有一个中文(cmn)WordNet:http://casta-net.jp/~kuribayashi/multi/。如果此WordNet具有与英语WordNet相同的格式,那么您可以使用NLTK中的WordNetCorpusReader(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader)来导入普通话数据。我不知道你是如何在两个数据集之间进行对齐或翻译的,但假设你可以将英文映射到中文,这可以帮助你弄清楚两个英文单词之间的关系如何与两个普通话单词之间的关系进行比较。请注意,如果您的数据使用简化脚本,则在使用此cmn WordNet之前,您可能还需要转换为传统脚本。