Question

我是计算机编程的初学者，我正在完成一篇关于Word Sense Disambiguation中Parallel Corpora的文章。基本上，我打算表明，用一种意义来代替单词翻译简化了识别歧义单词含义的过程。我已经用GIZA ++将我的平行语料库（EUROPARL英语 - 西班牙语）对齐，但我不知道如何处理输出文件。我的目的是建立一个分类器来计算翻译单词的概率，给出围绕源文本中含糊不清的单词的标记的上下文特征。所以，我的问题是：如何从平行语料库中提取含糊不清的单词的实例及其对齐的翻译？

我已尝试过Python上的各种脚本，但这些脚本的运行假设1）英语和西班牙语文本在单独的语料库中; 2）英语和西班牙语句子共享相同的索引，这显然不起作用。 e.g。

def ambigu_word2(document, document2):
    words = ['letter']
    for sentences in document:
        tokens = word_tokenize(sentences)
        for item in tokens:
            x = w_lemma.lemmatize(item)
            for w in words:
                if w == x in sentences:
                    print (sentences, document2[document.index(sentences)])
print (ambigu_word2(raw1, raw2))

如果你能就此事提供任何指导，我将非常感激。

跨语言词义消歧

0 个答案: