我是计算机编程的初学者,我正在完成一篇关于Word Sense Disambiguation中Parallel Corpora的文章。 基本上,我打算表明,用一种意义来代替单词翻译简化了识别歧义单词含义的过程。我已经用GIZA ++将我的平行语料库(EUROPARL英语 - 西班牙语)对齐,但我不知道如何处理输出文件。我的目的是建立一个分类器来计算翻译单词的概率,给出围绕源文本中含糊不清的单词的标记的上下文特征。 所以,我的问题是:如何从平行语料库中提取含糊不清的单词的实例及其对齐的翻译?
我已尝试过Python上的各种脚本,但这些脚本的运行假设1)英语和西班牙语文本在单独的语料库中; 2)英语和西班牙语句子共享相同的索引,这显然不起作用。 e.g。
def ambigu_word2(document, document2):
words = ['letter']
for sentences in document:
tokens = word_tokenize(sentences)
for item in tokens:
x = w_lemma.lemmatize(item)
for w in words:
if w == x in sentences:
print (sentences, document2[document.index(sentences)])
print (ambigu_word2(raw1, raw2))
如果你能就此事提供任何指导,我将非常感激。