在同一句话中处理多语言文字

时间:2017-09-17 13:45:35

标签: xml database lucene multilingual markup

这是专门针对词汇类型的数据库,在源语言中有一个“头字”或“关键词”字段...然后你有一个通常更大的字段,你可以称之为“定义” “或”解释“,正如你在字典中找到的那样。

例如,使用法语单词“oeil”(eye),您可以将其作为定义/解释:

<EN>eye</EN> <phonetics>...</phonetics>, irregular pl. <FR>yeux</FR> <phonetics>...</phonetics>, <EN>eyes</EN>. And some more miscellaneous free-form text perhaps with some other embedded <FR> or <EN> words...

如何最好地完成这种标记?如果适用,我应该使用哪种XML模式?重点不仅仅是装饰性的:如果你能规定哪种语言适用于文本的某些部分(或者实际上,如果一段文本实际上是语音),那么你可以以一种方式执行Lucene类型的反向索引。完全不可能。

例如,在上面的示例中,您不仅会将法语Lucene索引标记为包含法语头部单词“oeil”的记录,您还可以将其标记为包含法语单词“ YEUX”。

我在这里和一般地环顾四周但是我找不到任何类型的“最佳做法”建议:通常当你谷歌“多语言”时,它是用一种语言替换一种语言的整个字符串在另一个。

0 个答案:

没有答案