我正在使用DIH和TikaProcessor从数据库和SolrJ API中提取二进制数据进行查询。
我们有如下所示的数据结构,其中一个订单可以有多个附件。附件可以包含100-300 mb范围内的巨大二进制数据。
订购表
orderId |细节
附件表
AttId |数据|订单ID
使用此结构,创建solr文档的最佳方法是什么?
选项1:每个订单的一个solr文档,带有附件的多值字段
选项2:每个附件的一个文档 - 展平结构。如果我们需要订单的所有文件,请使用solr分组/折叠。
我们也需要突出显示功能。
每个选项的性能影响是什么?我更倾向于选择2.有什么想法吗?