如果我使用Apache Tika将PDF转换为文本或HTML,它将为输出添加换行符。句子将被打破一半,在HTML的情况下,很多<p>
标签会在那里被删除。
有没有关闭换行?我更愿意保留文件的初衷。
例如,上面的内容将呈现如下:
<p>If I use Apache Tika to convert a PDF to text or HTML it will add line wraps to the output.
</p>
<p>Sentences will get broken in half and in the case of HTML a lot of
</p>
我希望它会在一个p标签中返回。
例如:http://trevorgrayson.com/sandbox/CrossDocumentTest.pdf
请注意列举的部分(例如1.机密的定义..)Tika将为文档中的每一行添加<p>
个标记。