多语言短语集

时间:2015-05-17 16:04:58

标签: nlp data-modeling multilingual linguistics

我们想为特定的人创建一个多语言的短语/字典 区域。

现在我正在考虑最好的数据结构/数据模型。

因为它应该比词典更多的短语,我们希望保持数据模型/结构首先简单。它应仅用于快速翻译:即用户选择两种语言,键入单词并进行翻译。文章和描述部分仅用于显示,而不用于搜索。

我有一些具体的案例:

  • 一个术语可以用任何语言的几个(1..n)单词表示
  • 任何术语也可以翻译成另一种语言的几个(1..m)单词
  • 在某些语言中,单词的清晰度可能很重要
  • 对于某些词语,描述可能很重要(例如,来自方言的单词等)

我不确定一点:我是否重新发明轮子自己创建数据模型?但我找不到任何解决方案。

我刚创建了一个json数据模型,我不确定它是否足够好:

[
    {
        wordgroup-id: 1,
        en: [
                {word: 'car', plural: 'cars'},
                {word: 'auto', plural: 'autos'},
                {word: 'vehicle', plural: 'vehicles'},
            ],
        de: [
                {word: 'Auto', article: 'das', description: 'Some explanation eg. when to use this word', plural: 'Autos'},
                {word: 'Fahrzeug', article: 'das', plural: 'Fahrzeuge'}
            ],
        ru: [...],
        ...
    },
    {
        wordgroup-id: 2,
        ...
    },
    ...
]

我还想过@triplee写的一些“角落”案例。我想用某种冗余来解决它们。只有单词组ID和语言中的单词才应该是唯一的。

我非常感谢对数据模型初稿的任何反馈。

0 个答案:

没有答案