从日语源估计英语翻译单词数的算法

时间:2008-09-28 04:06:50

标签: algorithm internationalization translation text-processing

我正试图想出一种估算日语翻译的英语单词数量的方法。日语有三个主要脚本 - KanjiHiraganaKatakana - 每个都有不同的平均字符比率(汉字最低,片假名最高)。

示例:

  • 电脑:コンピュータ(片假名 - 6 字符);计算机(汉字:3 字符)
  • 鲸鱼:くじら(平假名 - 3个字符);鲸(汉字:1 字符)

作为数据,我有一个很大的日语单词和他们的英语翻译词汇表,以及相当大的日语源文件及其英文翻译。我想提出一个公式来计算源文本中汉字,平假名和片假名字符的数量,并估计这可能变成的英文单词的数量。

7 个答案:

答案 0 :(得分:3)

以下是Borland(现为Embarcadero)对非英语英语的看法:

Length of English string (in characters)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

我认为您可以将日语应用于非日语(有些修改)。

您可能想要考虑的另一个因素是语言的基调。在英语中,指令被表达为“按OK”中的命令。但是在日语中,命令被认为是粗鲁的,你必须在“OKボタンを押してください”中表达敬意(或keigo)的说明。

注意三个字母的汉字组合。许多重要词汇转化为三个或四个字母的汉字组合,如国际化(国际化:20个字符),高可用性(高可用性:17个字符)。

答案 1 :(得分:1)

嗯,与英语相比,它比名词中的字符数要复杂得多,例如,日语与英语相比也有不同的语法结构,因此某些句子会使用日语中的更多单词,而其他句子则会用少量的话。我真的不懂日语,所以请原谅我使用韩语作为例子。

在韩语中,句子通常比英语句子短,主要是因为它们通过使用上下文来填补缺失的单词而被缩短。例如,说“我爱你”可以像사랑해(“sarang hae”,简称动词“love”)一样简短,或者只要完全合格的句子저는당신을해해요(我[主题]你[对象] ]爱[动词+礼貌修饰语]。在文本中,它的编写方式取决于上下文,通常由段落中较早的句子设置。

无论如何,有一个算法来实际知道这种事情会非常困难,所以你可能会好得多,只是使用统计数据。你应该做的是使用随机样本,其中已知的日文文本和英文文本具有相同的含义。样本越大(随机越多)越好......但如果它们真的是随机的,那么你已经过了几百个就不会有多大差异。

现在,另一件事是这个比例将完全改变正在翻译的文本类型。例如,高技术文档很可能具有比普通小说更高的日/英长度比率。

至于简单地使用你的单词翻译词典 - 这可能不会很好(并且可能是错误的)。同一个词并不是每次都用不同的语言翻译成同一个词(尽管在技术讨论中更有可能发生)。例如,美丽这个词。我可以用韩语分配不止一个单词(即有一个选择),但有时我会失去那个选择,就像在句子里(食物是美丽的),我不是说食物看起来好。我的意思是它的味道很好,我对该单词的翻译选项也有所改变。这是一个非常常见的情况。

另一个大问题是最佳翻译。人类真正擅长的东西,以及计算机更糟糕的东西。每当我将从另一个文本翻译成英文的文档校对时,我总能看到各种方法将它缩短得更短。

因此,尽管如此,通过统计数据,您可以在翻译之间找出相当好的平均长度比率,这与所有翻译最佳时的情况大不相同。

答案 2 :(得分:1)

我将从线性近似开始:approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3,系数a1,a2,a3使用线性最小二乘法从数据拟合。

如果这种情况不是很接近,那么请查看最糟糕的情况,因为它们不适合(专业词语等)。

答案 3 :(得分:1)

根据我作为翻译和本地化专家的经验,一个好的经验法则是每个英文单词有2个日文字符。

答案 4 :(得分:1)

作为日语和英语之间经验丰富的翻译,我可以说这很难量化,但通常根据我的经验,从日语翻译的英文文本几乎是源文本的200%。在日语中,有许多文化特定的短语和名词不能按字面翻译,需要用英语解释。 翻译时,我只需要用一个日语句子并用一个单独的英语段落来表达意思就可以传达给读者。我这里的顶部是一个例子:

「懐かしい」

这字面意思是怀旧。但是,在日语中,它可以在感叹号中用作单个短语。然而,在英语中,为了传达一种怀旧的感觉,我们需要更多的背景。例如,您可能需要将该单个短语转换为句子:

“当我走过我的小学时,我充满了对过去的回忆。”

这就是为什么日语和英语之间的机器翻译是不可能的。

答案 5 :(得分:0)

看起来很简单 - 你只需要找出比率。

对于每个脚本,计算词汇表中的脚本字符数和英语单词数,并计算出比率。

这可以通过日语源文档来增强假设您可以检测日语单词所在的脚本以及翻译中的英语等效短语。否则,你将不得不猜测比率或忽略它作为源数据,

然后,正如您所说,计算源文本的每个脚本中的单词数量,进行乘法运算,您应该进行粗略估计。

答案 6 :(得分:0)

我的(尽管很小)经验似乎表明,无论语言是什么,文本块都会占用相同数量的打印空间来传达等效信息。因此,对于大型文本块,您可以为英语中的每个字符指定宽度计数(从像Times New Roman这样的常用字体中获取),同样使用相同点大小的常用日语字体来计算需要的字符数。