Apache Tika - 段落在.doc文件中断

时间:2018-05-24 12:18:21

标签: apache-tika

现在我正在使用Apache Tika测试全文提取。 我使用具有相当默认配置的外观类Tika。 问题在于Tika处理段落的方式。

我创建了几个不同格式的测试文件 - docx,pdf,纯文本,odt,rtf,doc包含完全相同的内容。对于除doc之外的所有这些格式,段落要么用' \ n \ n&n;或者' \ r \ n'。

例如,而不是获取:

  

1款\ n \ nparagraph2

我明白了:

  

paragraph1paragraph2

有没有办法以某种方式配置Tika,这样可以保留doc文件中的分段符,就像它对其他文件类型一样?

0 个答案:

没有答案