Solr - 加载和索引自定义分隔文件

时间:2017-03-25 02:08:40

标签: solr delimiter solr6

我收到以下格式的Feed文件数据,由自定义分隔符

分隔
employee_id||034100151730105|L|
employee_cd||03410015|L|
dept_id||1730105|L|
dept_name||abc|L|
employee_firstname||pqr|L|
employee_lastname||ppp|L|
|R||L|
employee_id||034100151730108|L|
employee_cd||03410032|L|
dept_id||4230105|L|
dept_name||fdfd|L|
employee_firstname||sasas|L|
employee_lastname||dfdf|L|
|R||L|
.....

所以我的行分隔符是| R || L | 每个记录分隔符是| L |和 记录名称(employee_id)和记录值(034100151730105)由||分隔

我需要使用/ update以下面的方式将此数据加载并索引到SOLR

employee_id: 034100151730105
employee_cd: 03410015 
...

有人可以帮助我,我该如何解析并将此Feed加载到SOLR?

1 个答案:

答案 0 :(得分:1)

Solr将无法摄取此信息。最容易的事情是:

  1. 使用一些命令行工具(如grep / sed等)将此格式转换为Solr / update将理解的正确csv。你需要:替换| L |和||用分隔符替换| R || L |使用新行,并注意使用转义定界符等。
  2. 然后使用/更新常用参数'separator'等。
  3. 使用'skip'
  4. 忽略所有字段名称

    或者,您可以编写一段非常简单的代码,将每个doc读入内存,并通过Solrj或http将其索引到solr中。