应用错误收集

现在我正在使用Apache Tika测试全文提取。我使用具有相当默认配置的外观类Tika。问题在于Tika处理段落的方式。

我创建了几个不同格式的测试文件 - docx，pdf，纯文本，odt，rtf，doc包含完全相同的内容。对于除doc之外的所有这些格式，段落要么用＆＃39; \ n \ n＆n;或者＆＃39; \ r \ n＆＃39;。

例如，而不是获取：

1款\ n \ nparagraph2

我明白了：

paragraph1paragraph2

有没有办法以某种方式配置Tika，这样可以保留doc文件中的分段符，就像它对其他文件类型一样？