过滤掉搜索查询的常用字词

时间:2008-12-22 18:40:13

标签: c# search stop-words

通过在查询中提取有意义的数据,有没有简单的方法来实现过滤用户的输入(可能是一个问题)?

我基本上想要过滤掉任何干扰词,以便向Google的搜索API发送“干净”查询。

4 个答案:

答案 0 :(得分:2)

嗯,Google不会为你做这个吗?将所有那些肮脏,污秽的文字发送给谷歌并让他们为你清理它们。

答案 1 :(得分:1)

Jeff在之前的一个stackoverflow播客中谈到了“停用词”。您可以尝试在Google上搜索该短语。维基百科页面似乎有一些概述和指向选项。

http://en.wikipedia.org/wiki/Stop_words

答案 2 :(得分:0)

你可以尝试删除前X个最常见的英语单词,但是你总是会遇到像这样天真的方法。

这是因为普通英语单词在计算机科学(或其他领域)领域具有特殊意义。最近的SO播客(#32)提到了这个问题。

答案 3 :(得分:0)

我在实现基本搜索引擎时使用了停用词方法,并且运行正常。 尝试一个类似here

的样本列表

根据用户的反馈,您可以相应地修改停用词列表。