我工作的公司拥有数百万个文档,这些文档在映射到用户驱动器的多个网络驱动器上存储和共享(例如,d:\ to \ server1 \等)。
我想要实现的是抓取网络驱动器,让用户使用全文索引快速查找文件。
我目前的索引策略 是Lucene.net
但我不确定我应该多长时间索引网络驱动器,因为有数百万个文档要编制索引,更不用说通过网络传输的数据包了。
所以问题是我应该如何实施索引频率 ?
我一直在研究谷歌/ Windows桌面搜索索引作为一个例子,但没有结果。
答案 0 :(得分:3)
许多答案都包含在您与客户的任何服务级别协议中。如果您的SLA声明搜索结果在 X 分钟内是最新的,则会回答您关于 应如何实施索引频率的问题。
如果您和我一样,没有适合搜索和索引的SLA,那么您可以更灵活。例如,我为我的业务管理SharePoint搜索服务器。除了我们的网站,我们还在非结构化文件空间中索引 lot 内容。服务器支持完整和增量爬网。我们计算了几次增量爬网以估计完成增量爬网所需的时间。然后,我们按照比观察到的经过时间更大的间隔安排我们的增量爬行。我们计划在非高峰时段进行完全爬网的次数较少。
具体细节可能因您使用的特定索引技术而异,但原理相同: