我想实现类似的目标
如果一个文件说一个带有id的txt文件,我需要处理它,干预单词,然后从中生成一个索引表。但是这个索引表可能基于以下标准分布在3个系统上:以[a-h]的字母开头的单词在第一个系统上被索引,下一个三分之一在第二个系统上,最后一个三分之一在第三个系统上。但我不知道应该使用什么技术来实现这一目标?索引表数据结构应该在RAM中,以便可以快速回答搜索查询(假设我们能够以这种方式对其进行索引并让用户搜索来自不同系统的单词或句子)。可以通过使用JAVA套接字实现此目的吗?
实际上我们(5人组)正在尝试制作一个小型但分布式的搜索引擎。假设爬行已经完成并且页面(我正在谈论的文档)被保存在某处并且我提取它,进行处理,阻塞等,我想最终基于上述方案制作分布式索引数据结构。可能吗?我只想知道用什么技术来实现这样的目标。就像修改某些其他机器上运行的程序内部的数据结构一样(但在同一网络中)。
其次,由于我们实际上不知道这种方法是否可行,如果是这样的话我会热衷于知道我应该看一下分布式索引表的正确方法。
答案 0 :(得分:0)
在抓取文档时保存索引信息。有一个头节点,显示搜索用户界面。然后,头节点将搜索分发到索引节点,并收集结果以呈现给用户。
有许多可用的框架,例如Mapreduce,它们可以帮助您解决这个问题。