我正试图在我的空闲时间开发一个搜索引擎,模仿谷歌。
我使用的是此处列出的原始Google研究论文:http://infolab.stanford.edu/~backrub/google.html
但是我在这里遇到了一些问题。确切地说,我在开发前向索引时遇到了问题。
在论文中它说:
如果文档包含属于特定桶的单词,则会将docID记录到桶中,然后是带有与这些单词对应的命中列表的wordID列表。
现在这个陈述有两个问题。首先,谁决定从这个庞大的词汇中输入哪些词进入前进桶?他们都去了。其次是对应词的意思。它是指在前一个词之后实际出现在该文档中的单词还是别的什么?
我是搜索引擎的新手,非常感谢任何Information Retrival Expert帮助我。如果主持人认为这个问题属于其他Stack Exchange网站,请这样做。
答案 0 :(得分:0)
第一个问题: 每个字的字符串值被映射为一个整数(通过散列函数)。这是因为整数比字符串更容易处理。然后,您可以在这些整数值上定义范围(存储桶或容器或您可能想要调用它们的任何其他内容),例如
第二个问题: 通常不使用上下文信息。单词只是文档中存在的术语,例如术语""," quick"," brown"等
既然你说你是IR的新手,一个好的开始方式就是阅读IR的入门书,例如: Manning和Schutze的书。