我正在用c ++构建一个搜索引擎(使用包含来自wikiBooks的页面的900 mb rapidXML文件),我的目标是使用rapidXML解析~900 MB的XML文档,以便用户只需在搜索中输入一个单词bar并接收包含该词(链接)的ACTUAL XML DOCUMENTS。
我需要弄清楚如何存储每个标记的索引(也就是每个文档中的每个单词),以便当用户想要查看某个单词出现的页码时,我可以跳转到该特定页面。
我被告知要做“文件偏移”(你在文件中存储一个单词的位置,以便你可以跳转到它),我很难理解该怎么做。
问题:
我是否在istream库中使用“seekg”和“tellg”(以查找存储每个文档PAGE的字节位置)?如果是这样,怎么样?
如何将实际文档返回给用户(包含搜索到的单词的多次出现)?