网络驱动器索引频率

时间:2010-08-23 00:15:02

标签: full-text-search frequency full-text-indexing network-drive frequency-distribution

我工作的公司拥有数百万个文档,这些文档在映射到用户驱动器的多个网络驱动器上存储和共享(例如,d:\ to \ server1 \等)。

我想要实现的是抓取网络驱动器,让用户使用全文索引快速查找文件。

我目前的索引策略 Lucene.net

但我不确定我应该多长时间索引网络驱动器,因为有数百万个文档要编制索引,更不用说通过网络传输的数据包了。

所以问题是我应该如何实施索引频率
我一直在研究谷歌/ Windows桌面搜索索引作为一个例子,但没有结果。

1 个答案:

答案 0 :(得分:3)

许多答案都包含在您与客户的任何服务级别协议中。如果您的SLA声明搜索结果在 X 分钟内是最新的,则会回答您关于 应如何实施索引频率的问题。

如果您和我一样,没有适合搜索和索引的SLA,那么您可以更灵活。例如,我为我的业务管理SharePoint搜索服务器。除了我们的网站,我们还在非结构化文件空间中索引 lot 内容。服务器支持完整增量爬网。我们计算了几次增量爬网以估计完成增量爬网所需的时间。然后,我们按照比观察到的经过时间更大的间隔安排我们的增量爬行。我们计划在非高峰时段进行完全爬网的次数较少。

具体细节可能因您使用的特定索引技术而异,但原理相同:

  • 观察一些爬行,最好是在高峰时段和非高峰时段进行爬行,并将爬行时间表配置得比最差情况下要大得多。
  • 为非高峰时段安排更多资源密集型抓取,例如晚上。
  • 如果完整抓取需要几个小时才能完成,那么您可能会在周末安排它们。
  • 使用支持增量爬网的技术可以在高峰时段大幅减少带宽,同时仍保持索引新鲜。
祝你好运!