为什么搜索引擎会忽略符号?

时间:2010-09-17 16:29:16

标签: search-engine implementation

搜索符号在编程中很常见,尤其是当您不熟悉某种语言时。 例如,我在Python中有一个关于::运算符的question,这是不可搜索的。寻找像这样的东西或Object [](对象数组)的人找不到他们想要的东西。

为什么搜索引擎似乎完全忽略了符号?他们就像其他人一样。我明白为什么 与单词相比,从符号中提取语义是很困难的(例如:搜索引擎可以发现“查找”,“发现”,“找到”都是相关的,如果不是相同的单词), 但是搜索它们真的很难吗?

我也可以看到为什么在日常使用中你想要忽略符号,但它有多难 是为了让它明确地寻找某种东西(例如:"::"将搜索::)

2 个答案:

答案 0 :(得分:3)

查看Interpreting Google Search Queries上的这篇文章。

具体而言,第9节

Google ignores some punctuation and special characters, including ! ?
     

,. ; [] @ /#< >

     

因为标点符号通常不是   与周围的文字一样重要,   谷歌忽略了大多数标点符号   您的搜索字词。有   例外,例如C ++和99美元。   数学符号,例如/,&lt ;,   并且>,Google不会忽略它们   计算器。

     

[露丝博士]返回相同的结果   作为[露丝博士]

     

如果您正在寻求信息,该怎么办?   其中包括谷歌的标点符号   忽略,例如,电子邮件地址?只是   进入整个事情,包括   标点符号。

* [ info@amazon.com ]
     

有时请注意网页   伪装电子邮件地址   收集此类信息很困难   为垃圾邮件发送者例如,在某些方面   网站你会找到@符号   电子邮件地址替换为单词   “在”

     

现在我们来看一些特别的   Google不会忽略的字符。

答案 1 :(得分:0)

最小化索引中的条目数。

搜索引擎不必忽略它们。例如,谷歌代码似乎没有。