我正在进行倒排索引,我的问题是:在最后一步中,我们应该返回单词出现的文档总数还是每个文档编号? 例如 : 如果这个词"你好"出现在3份文件中(文件A和文件B和文件C)我应该返回3或A,B,C?
答案 0 :(得分:2)
索引意味着它会给你一些东西,而不仅仅是一个数字。频率计数可以计算出一个单词的出现次数。
BTW您可以从A,B,C获得数字,但不是相反。
答案 1 :(得分:0)
这完全取决于你!
如果您只需要返回某个单词出现的文档总数,那么您甚至不需要反向索引。您所需要的只是从单词到计数的映射。与倒排索引相比,这将花费更少的计算和空间。
如果您正在进行信息检索练习(或做一些概念验证等),在我看来,您还需要返回找到给定单词的文档,即{{3} }