我正在使用
itext - > LocationTextExtractionStrategy ,用于从PDF中检索文字,
我已阅读2种不同的pdf并进行调试
对于我找到的第一个
public void renderText(TextRenderInfo renderInfo)
方法文本用word渲染 例如:我有一些带有一些内容的pdf
ACCOUNT TYPE A/C. BALANCE (I) FIXED DEPOSITS (LINKED) BAL. (II)
然后renderText方法在循环中呈现文本,如: 帐户类型然后 A / C.平衡(I)然后固定存款(链接)BAL。 (II)
现在,当我调试2 pdf内容并且用字母呈现时,例如我有内容:
提款日期详情
然后renderText方法在循环中呈现文本: D 然后 a 然后 t 然后 e 等等
我想知道它是如何呈现文本的(意味着一些时间用单词迭代,一段时间用一组单词迭代,一些时间用一个字母迭代)?
答案 0 :(得分:0)
它如何呈现文本(意味着一些时间用单词迭代,一些时间用一组单词迭代,一些时间用一个字母迭代)?
iText解析框架转发PDF文本绘制操作的参数中使用的原子字符串。
因此,如果PDF逐字逐句地绘制文本,则每封信件将收到一个TextRenderInfo
个实例。如果它逐字逐句绘制文本,则每个单词将收到一个实例。