应用错误收集

我正在使用.Net开发一个高级搜索引擎，用户可以根据以下几个字段构建查询：

我正在使用lucene索引文档内容及其相应的ID。但是，其他元数据驻留在MS SQL DB中（以避免扩大索引，并在元数据的任何修改上不断更新索引）。

我如何进行搜索？

当任何用户搜索词语时：

如您所见，在DB中有一个查找，然后是Lucene和Finally DB，以获取要在Grid中显示的值。

问题：

如何克服这种情况？我想开始搜索lucene，但如果索引的文件达到200万，这就有一个缺点。（我认为首先使用数据库缩小结果会对性能产生很大影响）。

另一个问题是将ID传递给lucene Search Service，传递数十万个ID的效果如何？什么是替代解决方案？

我欢迎任何想法，所以请分享您的想法。

您当前的解决方案在查询时产生以下开销：

1）通过MS-SQL缩小搜索空间

2）通过Lucene.NET执行有界全文搜索

[!!]在应用程序中生成/执行包含100,000个ID子句的大型BooleanQuery的Lucene内存开销（您需要首先覆盖1024个子句的默认限制，以便测量此效果）
标准Lucene全文搜索执行
返回匹配ID

3）通过MS-SQL实现结果细节

您可能会做出两个值得重新考虑的假设

A）索引所有元数据（日期，作者，位置等）将无法接受地增加索引的大小。

首先尝试一下：这是最佳做法，除了文本搜索之外，让Lucene为您完成所有过滤，您将大大减少查询执行开销。
此外，索引的大小主要与每个字段的基数有关。例如，如果您只有500个唯一所有者名称，则只存储500个字符串，每个lucene文档将通过符号表查找在内部引用其所有者（4字节整数* 2MM docs + 500字符串 =＆lt; 8MB额外）。

B）MS-SQL查询将是过滤非文本元数据的最快方式。

重新考虑此问题：使用适当的Lucene类型正确索引元数据，您不会产生查询Lucene与查询MS-SQL的任何额外开销。（在某些情况下，Lucene甚至可能更快。）
您的里程可能会有所不同，但根据我的经验，这种类型的过滤全文搜索在Lucene 2MM文档集合上执行时，通常会在100毫秒内完成。

总结一下最佳做法：

我还建议您探索迁移到独立搜索服务器（Solr或Elasticsearch）的原因有多种：