Question

我有多语言文本，其中包含翻译成多种语言的邮件。例如：

English message
Russian message
Ukrainian message

订单不准确。我想设计一种有监督/无监督的学习算法来自动进行分割，并提取每个翻译以创建一个平行的数据语料库。

你能否提出任何论文/方法？我无法通过Google搜索获得正确的关键字。

Answer 1

解决问题的最基本方法是从文档中生成bag of words。总而言之，一个单词是一个矩阵，其中每行是文档中的一行，每列是一个不同的术语。

例如，如果您的文档是这样的：

hello world
привет мир
привіт світ

你将有这个矩阵：

     hello | world | привет | мир | привіт | світ
l1 | 1     |    1  |   0    | 0   |   0    | 0
l2 | 0     |    0  |   1    | 1   |   0    | 0
l3 | 0     |    0  |   0    | 0   |   1    | 1

然后，您可以根据需要应用分类算法（例如k-means或svms）。

有关详细信息，我建议您阅读this paper，其中提供了很好的技术摘要。

关于谷歌搜索的关键字，我会说text analysis，text mining或information retrieval是一个良好的开端。

Answer 2

为什么不尝试使用某种语言识别软件？他们正在报告＆gt;准确率达90％：

langid.py https://github.com/saffsd/langid.py
TextCat http://odur.let.rug.nl/~vannoord/TextCat/
Linguine http://www.jmis-web.org/articles/v16_n3_p71/index.html

分段多语言并行文本

2 个答案: