应用错误收集

时间：2013-08-24 19:58:20

标签： indexing search-engine information-retrieval

我正试图在我的空闲时间开发一个搜索引擎，模仿谷歌。

我使用的是此处列出的原始Google研究论文：http://infolab.stanford.edu/~backrub/google.html

但是我在这里遇到了一些问题。确切地说，我在开发前向索引时遇到了问题。

在论文中它说：

如果文档包含属于特定桶的单词，则会将docID记录到桶中，然后是带有与这些单词对应的命中列表的wordID列表。

现在这个陈述有两个问题。首先，谁决定从这个庞大的词汇中输入哪些词进入前进桶？他们都去了。其次是对应词的意思。它是指在前一个词之后实际出现在该文档中的单词还是别的什么？

我是搜索引擎的新手，非常感谢任何Information Retrival Expert帮助我。如果主持人认为这个问题属于其他Stack Exchange网站，请这样做。

答案 0 :(得分：0)

第一个问题：每个字的字符串值被映射为一个整数（通过散列函数）。这是因为整数比字符串更容易处理。然后，您可以在这些整数值上定义范围（存储桶或容器或您可能想要调用它们的任何其他内容），例如

第二个问题：通常不使用上下文信息。单词只是文档中存在的术语，例如术语＆＃34;＆＃34;，＆＃34; quick＆＃34;，＆＃34; brown＆＃34;等

既然你说你是IR的新手，一个好的开始方式就是阅读IR的入门书，例如： Manning和Schutze的书。