我已经索引了15年的数据,该数据包含100万个索引查询,其中包含学生信息,如姓名,出生日期,地址等。如果我试图解析报告,即该学生的pdf,由于同样的dob,它的节目重复多个学生姓名。我在必须查询时使用了学生的姓氏和dob。
query = {"query": {
"bool": {
"must": [
{"match_phrase": {"doc": dob}},
{"match_phrase": {"doc": last_name.strip()}}
],
"should": should_phrase
}
},
所需的输出
单独的学生姓名详细信息应附加在excel / db
中