应用错误收集

修复Solr中的身份不明的角色

时间：2016-06-09 04:53:54

标签： pdf solr tokenize apache-tika dataimporthandler

我尝试使用DataImportHandler使用Tika导入PDF。但结果的一部分包含这样的内容：

是一个 \ nZLWKRXUQDWXUHWDNH \RXUSLFNHQGOHVVPRXQWDLQVLQȴQLWHEHDFKHVVSDUNOLQJFLWLHV\也不历史奇迹

所以我尝试使用ASCIIFoldingFilter和MappingCharFilterFactory删除它，但它不起作用。

有人知道吗？

0 个答案:

没有答案