itextsharp 和 pdfbox 在两者中我能够提取文本字符,但是对齐与pdf文件对齐不同,(页边距离,顶部等)
如何在pdxt文件中保留pdf对齐?
答案 0 :(得分:3)
正如您在尝试使用iText和PdfBox时所经历的那样,由于可移植文档格式定义布局的方式与以纯文本格式建立布局的方式不匹配,您会问一些不可能的事情
.txt
文件中,使用空格字符(例如空格(
),换行符(/n
)来实现对齐,缩进,间距等。和标签(/t
)。.pdf
文件中,单个空格字符通常用于单词之间,但是当需要多个空格时,或者在优化字间距以获得更好的阅读体验的情况下,您可以使用单个空格字符。我会看到绝对定位比使用空格字符更受欢迎。内容流中的\n
并未被视为内容的新行,但新行的概念存在于新行操作符中。选项卡的概念在PDF中根本不存在;使用(x, y)
坐标的绝对定位。您期望从PDF到TXT的转换过程能够以某种方式解决这种语法上的不匹配问题,但这是从一个完全错误的假设开始的:您需要纯文本格式的绝对定位功能,并且功能根本就不存在。你的问题的答案是没有答案。