有关如何改进搜索引擎全文搜索的提示

时间:2010-02-27 17:52:57

标签: sql-server full-text-search

我正在开发:http://www.buscatiendas.com.mx

我看到人们为大量拼写错误的查询输入文字。 我能实现什么样的搜索才能找到类似的单词? 像谷歌一样,或多或少都会很整洁。

我正在使用SQL Server全文搜索。

3 个答案:

答案 0 :(得分:1)

为什么你没有google / bing为它编制索引,只是使用它们提供的网站:功能?

如果这不是一个选项,你可能必须拥有一个自己的“拼写检查器”(自己实现或只使用现有的),这是根据你拥有的数据进行训练的。注意拼写检查不是确定性的(例如:latel,它是标签吗?稍后?)。您只能根据网站上的实际数据做出“最佳”猜测。

有概率模型,你可以“训练”你的咒语猜测器/检查器来提出“最佳”猜测。

以下页面似乎非常有用。它描述了如何自己编写一个,并且还有很好的链接(包括调查文件)和不同语言实现的链接:

  

http://norvig.com/spell-correct.html

答案 1 :(得分:0)

有两种方法可以解决这个问题:

  
      
  1. 购买第三方产品,例如谷歌搜索应用程序或其中一个   Microsoft搜索服务器。

  2.   
  3. 记录所有查询,并让某人查看这些查询,制作一张表格   将错误的查询链接到它们   应该。 (有可能你可以   买一个组件库   这很像一个   拼写检查。)

  4.   

答案 2 :(得分:0)

如果您想推出自己的产品,首先需要在开始搜索之前过滤掉干扰词,因为这可能会对您的数据库造成不必要的负担。 “好书”应该与搜索“好书”或“他的好书”或“书上的好评和坏评”相同吗?很明显,“a”,“the”,“an”,“and”等根本不具备“有用”搜索关键字的条件。一旦你把“噪音”过滤掉了,你就开始真正的搜索了。再次,你应该考虑数据库性能。搜索动态数据库或预先存在的数据库是否明智?找出一种过滤掉搜索数据中的噪音词的方法。