多语言搜索匹配

时间:2012-07-05 12:58:48

标签: algorithm machine-learning artificial-intelligence search-engine multilingual

假设我们用非拉丁字母 - Arabic, Hebrew, Chinese, Japanese等语言编写了名称

search engine如何匹配同名的original nameEnglish spelling之间的匹配。反之亦然?

类似于日语中的拓海名称和English拼写Takumi

algorithm/technique用来做这件事的是什么?

2 个答案:

答案 0 :(得分:2)

美好的一天。

你必须做以下事情:

使用相同的符号对世界上的每个语言进行分类:

all langs:

  • Engish [26个字母] a b c d e f g ...
  • 俄语[33个字母] aбвгде<< / strong> ....
  • 中文[x letters] ....
  • 乌克兰语[x letters] aбвгд.........
  • 日文[x letters] ......
  • .................

最后,您将在任何lang中拼写任何符号之间有规则。 一些langs,例如印地语,中文等不会有任何规则。你应该创建自己的规则(基于这个langs的转录)。

algo:

[w] [e] [п] = wep

e e r

e - eng r - rus 转录[п] = p

答案 1 :(得分:0)

搜索引擎(如谷歌)可能拥有大量的数据集(语料库),每种语料库都有不同的语言。

当您想要将一种语言的单词翻译成其他语言时,可以通过使用第一语言搜索语料库中的单词,并在第二语言的语料库中返回兼容单词来完成。 (名称相同的技术)

这是基本的想法。

您最好在这里阅读有关NLP字段的背景信息: http://en.wikipedia.org/wiki/Natural_language_processing