通过在查询中提取有意义的数据,有没有简单的方法来实现过滤用户的输入(可能是一个问题)?
我基本上想要过滤掉任何干扰词,以便向Google的搜索API发送“干净”查询。
答案 0 :(得分:2)
答案 1 :(得分:1)
Jeff在之前的一个stackoverflow播客中谈到了“停用词”。您可以尝试在Google上搜索该短语。维基百科页面似乎有一些概述和指向选项。
答案 2 :(得分:0)
你可以尝试删除前X个最常见的英语单词,但是你总是会遇到像这样天真的方法。
这是因为普通英语单词在计算机科学(或其他领域)领域具有特殊意义。最近的SO播客(#32)提到了这个问题。
答案 3 :(得分:0)
我在实现基本搜索引擎时使用了停用词方法,并且运行正常。 尝试一个类似here
的样本列表根据用户的反馈,您可以相应地修改停用词列表。