现在我正在使用Apache Tika测试全文提取。 我使用具有相当默认配置的外观类Tika。 问题在于Tika处理段落的方式。
我创建了几个不同格式的测试文件 - docx,pdf,纯文本,odt,rtf,doc包含完全相同的内容。对于除doc之外的所有这些格式,段落要么用' \ n \ n&n;或者' \ r \ n'。
例如,而不是获取:
1款\ n \ nparagraph2
我明白了:
paragraph1paragraph2
有没有办法以某种方式配置Tika,这样可以保留doc文件中的分段符,就像它对其他文件类型一样?