我们正试图通过坐在GMail之上来索引收件箱,并且正在使用App Engine搜索API,但我们正在达到10 GB的限制。这是因为我们正在为整个组织的电子邮件编制索引,以便我们可以搜索整个团队的收件箱。我们如何解决这个问题?一种方法可能是每人拥有一个单独的索引,并以某种方式手动组合结果,但担心合并结果可能非常复杂!想知道有哪些选择?
答案 0 :(得分:2)
这是任何文档检索系统中的典型问题,解决方案是将整个语料库分成多个桶。您应该根据您的要求/使用模式选择切片策略。
一种可能性是按日期对邮件进行分片。您不断向索引添加消息,直到接近限制,此时您将为较新的消息启动新索引。或者您可以按日历间隔(每年,每季度或每月,取决于您的音量)来执行此操作。
合并多个索引的结果很简单。您还可以让用户有机会选择他们想要进入搜索的时间。通常人们都知道他们正在寻找最近发生的事情或很久以前发生的事情。
答案 1 :(得分:0)