Apache Tika添加" wrap"要记录的新行

时间:2016-01-04 02:08:20

标签: pdf apache-tika

如果我使用Apache Tika将PDF转换为文本或HTML,它将为输出添加换行符。句子将被打破一半,在HTML的情况下,很多<p>标签会在那里被删除。

有没有关闭换行?我更愿意保留文件的初衷。

例如,上面的内容将呈现如下:

<p>If I use Apache Tika to convert a PDF to text or HTML it will add line wraps to the output. 
</p>
<p>Sentences will get broken in half and in the case of HTML a lot of
</p>

我希望它会在一个p标签中返回。

例如:http://trevorgrayson.com/sandbox/CrossDocumentTest.pdf

请注意列举的部分(例如1.机密的定义..)Tika将为文档中的每一行添加<p>个标记。

0 个答案:

没有答案