修复Solr中的身份不明的角色

时间:2016-06-09 04:53:54

标签: pdf solr tokenize apache-tika dataimporthandler

我尝试使用DataImportHandler使用Tika导入PDF。但结果的一部分包含这样的内容:

  

是一个   \ nZLWKRXUQDWXUHWDNH \RXUSLFNHQGOHVVPRXQWDLQVLQȴQLWHEHDFKHVVSDUNOLQJFLWLHV\也不   历史奇迹

所以我尝试使用ASCIIFoldingFilterMappingCharFilterFactory删除它,但它不起作用。

有人知道吗?

0 个答案:

没有答案