我有一个用XML编写的各种语言的植物名称(植物名称;英语,德语和这两种语言的历史变体的列表)(不过,将其转换为任何序列化都不会有问题)。这就是现在的样子:
<ingredients>
<ingredient>
<lemma>Rosmarinus officinalis L.</lemma>
<syn lang="deu">Rosmarin</syn>
<syn lang="ang">boþen</syn>
<syn lang="ang">feldmædere</syn>
<syn lang="ang">lauendie</syn>
<syn lang="eng">rosemary</syn>
<syn lang="ang">sundēaw</syn>
</ingredient>
<ingredient>
...
</ingredients>
现在,我想知道是否有一种方法可以将受控词表中的Wikidata和/或其他URI自动分配给该列表。当然,要考虑与100%不匹配的字符串的可管理错误率。可以使用什么方法来获得:
<ingredient wikidata="Q122679">
<lemma>Rosmarinus officinalis L.</lemma>
...
感谢任何想法!