我有多语言文本,其中包含翻译成多种语言的邮件。 例如:
English message
Russian message
Ukrainian message
订单不准确。 我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译以创建一个平行的数据语料库。
你能否提出任何论文/方法? 我无法通过Google搜索获得正确的关键字。
答案 0 :(得分:2)
解决问题的最基本方法是从文档中生成bag of words。总而言之,一个单词是一个矩阵,其中每行是文档中的一行,每列是一个不同的术语。
例如,如果您的文档是这样的:
hello world
привет мир
привіт світ
你将有这个矩阵:
hello | world | привет | мир | привіт | світ
l1 | 1 | 1 | 0 | 0 | 0 | 0
l2 | 0 | 0 | 1 | 1 | 0 | 0
l3 | 0 | 0 | 0 | 0 | 1 | 1
然后,您可以根据需要应用分类算法(例如k-means或svms)。
有关详细信息,我建议您阅读this paper,其中提供了很好的技术摘要。
关于谷歌搜索的关键字,我会说text analysis
,text mining
或information retrieval
是一个良好的开端。
答案 1 :(得分:1)
为什么不尝试使用某种语言识别软件?他们正在报告>准确率达90%: