在solr中获取解析错误?

时间:2014-09-08 13:37:48

标签: solr

我正在使用solr 4.6并且在索引文档时我可以在日志中看到几个错误/警告。我想确保尽管有这些消息,文档会被索引到solr中,还是会被跳过。

最后我可以升级相关的罐子,即pdfbox和tika来解决问题而不会破坏其他任何东西吗?

错误。

  

ERROR PDCIDFont错误:无法解析预定义的CMAP文件'¢¬%?Â-ª¬/3Ó~Œ[-UCS2'

     

错误:无法解析'PDFAUTOCAD-Indentity0-UCS2'的预定义CMAP文件

我也可以看到下面的警告。

  

ExtractingDocumentLoader   跳过因TIKA-198而导致的文本提取:来自org.apache.tika.parser.microsoft.ooxml.OOXMLParser@37e5a2db的非法IOException。 metadata = stream_source_info = TMSD SS_FI006 - 固定资产课程Slides.pptx stream_content_type = application / vnd.openxmlformats-officedocument.presentationml.presentation stream_size = 9780764 stream_name = TMSD SS_FI006 - 固定资产课程Slides.pptx Content-Type = application / vnd.openxmlformats- officedocument.presentationml.presentation resourceName = TMSD SS_FI006 - 固定资产课程Slides.pptx

  

ExtractingDocumentLoader   从org.apache.tika.parser.microsoft.OfficeParser@6900efc8跳过由于意外的RuntimeException而导致的文本提取。 metadata = stream_source_info = PMO IW持久Employees_Secondment Tracker.xlsx stream_content_type = application / x-tika-ooxml-protected stream_size = 52736 custom:_dlc_DocIdItemGuid = 9523d6bd-d1cf-40b5-b5b3-ca1ce43c4eb0 stream_name = PMO IW持久Employees_Secondment Tracker.xlsx custom:ContentTypeId = 0x010100B98D2353323F5D4F8163D5A4670906C0 Content-Type = application / x-tika-ooxml-protected resourceName = PMO IW持久Employees_Secondment Tracker.xlsx

0 个答案:

没有答案