分段多语言并行文本

时间:2014-04-11 08:12:21

标签: algorithm machine-learning nlp supervised-learning unsupervised-learning

我有多语言文本,其中包含翻译成多种语言的邮件。 例如:

English message
Russian message
Ukrainian message

订单不准确。 我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译以创建一个平行的数据语料库。

你能否提出任何论文/方法? 我无法通过Google搜索获得正确的关键字。

2 个答案:

答案 0 :(得分:2)

解决问题的最基本方法是从文档中生成bag of words。总而言之,一个单词是一个矩阵,其中每行是文档中的一行,每列是一个不同的术语。

例如,如果您的文档是这样的:

hello world
привет мир
привіт світ

你将有这个矩阵:

     hello | world | привет | мир | привіт | світ
l1 | 1     |    1  |   0    | 0   |   0    | 0
l2 | 0     |    0  |   1    | 1   |   0    | 0
l3 | 0     |    0  |   0    | 0   |   1    | 1

然后,您可以根据需要应用分类算法(例如k-means或svms)。

有关详细信息,我建议您阅读this paper,其中提供了很好的技术摘要。

关于谷歌搜索的关键字,我会说text analysistext mininginformation retrieval是一个良好的开端。

答案 1 :(得分:1)

为什么不尝试使用某种语言识别软件?他们正在报告>准确率达90%: