我正在创建一个简单的搜索引擎,当我查看要编制索引的文档时,我想自动识别应该忽略的单词(例如“and”和“the”)。
我能想到的唯一简单方法就是忽略长达一定长度的单词(如果它们不够长,那么它们就被认为是停用词)。任何其他方法可能都需要数据挖掘(我愿意接受建议)。
我更喜欢在浏览文档时可以使用的方法,但我对其他建议持开放态度。我只需要一个简单的方法。
答案 0 :(得分:1)
简短回答是:不要。因为不要打扰,而是从查询中剥离它们和/或通过TF-IDF适当地权衡它们。
引用Xapian手册:http://xapian.org/docs/stemming.html
传统的设置IR系统在索引过程中丢弃语言中最常见的单词 - 停用词。更现代的方法是索引所有内容,这大大有助于搜索短语。然后,仍然可以从查询中删除停用词作为可选的检索方式。在任何一种情况下,语言的停用词列表都很有用。
获取停用词列表可以通过按频率为语言排序文本语料库的词汇表,然后在列表中选择要丢弃的单词来完成。