标签: pdf text pdf-generation ocr
我想知道是否有一种提取pdf文件内容的机制,目的是重新排列文本,保持pdf格式不变。也就是说,我不一定对OCR相关方法感兴趣,在这些方法中可以提取内容,甚至可以改变内容。但这是一种简单地逐字逐句或逐字逐句地重新格式化PDF格式的方式。
我不确定我是否清楚地表达了我的问题,这个问题的位置也是如此。如果有建议。