900 MB XML文件的字节偏移表示法

时间:2015-11-30 17:29:29

标签: c++ xml search-engine

我正在用c ++构建一个搜索引擎(使用包含来自wikiBooks的页面的900 mb rapidXML文件),我的目标是使用rapidXML解析~900 MB的XML文档,以便用户只需在搜索中输入一个单词bar并接收包含该词(链接)的ACTUAL XML DOCUMENTS。

我需要弄清楚如何存储每个标记的索引(也就是每个文档中的每个单词),以便当用户想要查看某个单词出现的页码时,我可以跳转到该特定页面。

我被告知要做“文件偏移”(你在文件中存储一个单词的位置,以便你可以跳转到它),我很难理解该怎么做。

问题:

  1. 我是否在istream库中使用“seekg”和“tellg”(以查找存储每个文档PAGE的字节位置)?如果是这样,怎么样?

  2. 如何将实际文档返回给用户(包含搜索到的单词的多次出现)?

0 个答案:

没有答案