应用错误收集

多语言搜索匹配

时间：2012-07-05 12:58:48

标签： algorithm machine-learning artificial-intelligence search-engine multilingual

假设我们用非拉丁字母 - Arabic, Hebrew, Chinese, Japanese等语言编写了名称。

search engine如何匹配同名的original name和English spelling之间的匹配。反之亦然？

类似于日语中的拓海名称和English拼写Takumi。

algorithm/technique用来做这件事的是什么？

2 个答案:

答案 0 :(得分：2)

美好的一天。

你必须做以下事情：

使用相同的符号对世界上的每个语言进行分类：

all langs:

Engish [26个字母] a b c d e f g ...
俄语[33个字母] aбвгде<< / strong> ....

中文[x letters] ....

乌克兰语[x letters] aбвгд.........

日文[x letters] ......

.................

最后，您将在任何lang中拼写任何符号之间有规则。一些langs，例如印地语，中文等不会有任何规则。你应该创建自己的规则（基于这个langs的转录）。

algo:

[w] [e] [п] = wep

e e r

e - eng r - rus 转录[п] = p

答案 1 :(得分：0)

搜索引擎（如谷歌）可能拥有大量的数据集（语料库），每种语料库都有不同的语言。

当您想要将一种语言的单词翻译成其他语言时，可以通过使用第一语言搜索语料库中的单词，并在第二语言的语料库中返回兼容单词来完成。（名称相同的技术）

这是基本的想法。

您最好在这里阅读有关NLP字段的背景信息： http://en.wikipedia.org/wiki/Natural_language_processing