标签: pdf solr tokenize apache-tika dataimporthandler
我尝试使用DataImportHandler使用Tika导入PDF。但结果的一部分包含这样的内容:
是一个 \ nZLWKRXUQDWXUHWDNH \RXUSLFNHQGOHVVPRXQWDLQVLQȴQLWHEHDFKHVVSDUNOLQJFLWLHV\也不 历史奇迹
所以我尝试使用ASCIIFoldingFilter和MappingCharFilterFactory删除它,但它不起作用。
ASCIIFoldingFilter
MappingCharFilterFactory
有人知道吗?