SOLR 7.1 Extracthandler提取PDF将添加许多我不想要的额外META数据,它不会在solr 6中发生

时间:2017-10-24 04:00:39

标签: pdf solr extract

1.SOLR 7提取pdf 将添加许多架构列(pdf meta) 和额外的meta pdf数据

2.在solr 6中,它不会发生

4.我可以关闭吗

1 个答案:

答案 0 :(得分:0)

我的猜测是你正在使用"无模式"更新7中的处理器,以便更新处理器将任何未知字段添加到架构中。如果你关闭它并使用像6中那样的显式模式,你应该再次看到旧的行为。

您可能需要切换到ClassicIndexSchemaFactory才能让Solr读取旧的schema.xml。

  
      
  1. 将managed-schema文件重命名为schema.xml。

  2.   
  3. 修改solrconfig.xml以替换schemaFactory类。

  4.   
  5. 删除任何ManagedIndexSchemaFactory定义(如果存在)。

  6.   
  7. 添加ClassicIndexSchemaFactory定义,如上所示

  8.   
  9. 重新加载核心。

  10.