我有一个AWS ElasticSearch实例。我正在使用Ingest插件索引附件(doc,docx,pdf,pptx,ppt,txt,xls和xlsx)并执行全文本搜索。为了进行测试,我为每种格式的样本文件建立了索引,并且效果很好。
现在的问题是,对于某些文件,它会引发错误
“ type \”:\“ exception \”,\“ reason \”:\“ java.lang.IllegalArgumentException: ElasticsearchParseException [解析字段[data]中的文档时出错]; 嵌套:TikaException [Unexpected RuntimeException from org.apache.tika.parser.ParserDecorator$2@7affdf61];嵌套: 无法加载CTTable的IllegalStateException [Schemas(* .xsb)- 通常在使用OSGI加载和线程上下文时发生 classloader没有对xmlbeans类的引用-使用 POIXMLTypeLoader.setClassLoader()设置加载程序,例如与 CTTable.class.getClassLoader()]; \“,\” caused_by \“:{\” type \“:\” illegal_argument_exception \“,\” reason \“:\\ ElasticsearchParseException [Error 解析字段[data]]中的文档;
我不明白为什么会这样。发生此错误的主要原因是pptx文件。
pptx文件是否有限制