什么是COSName.B?

时间:2018-07-18 18:10:25

标签: pdfbox

有时,我们会得到一些PDF文件,这些文件会分成几页,从而导致页面太大。检查页面后,每个页面都有一个“巨大”的COSName.B数组

enter image description here

我环顾四周,但似乎无法获得有关此类型COS元素的定义。在复制页面之前删除该元素可解决文件大小问题,并且(在我看来)结果看起来还可以,但是我很担心,因为我不确定要删除的内容。

有人知道我在哪里可以找到更多有关这个谜的信息吗?

1 个答案:

答案 0 :(得分:1)

(从PDF specification复制:)

  

应包含对所有商品珠的间接引用的数组   出现在页面上。珠子应列在阵列中   自然的阅读顺序。

您可以通过源代码下载中的DrawPrintTextLocations.java示例或主干快照PDFDebugger(而不是2.0 PDFDebugger版本)使这些内容可见。你可以在这里下载: https://repository.apache.org/content/groups/snapshots/org/apache/pdfbox/pdfbox-debugger/3.0.0-SNAPSHOT/

是否删除它取决于您要对结果PDF进行的处理。如果您想进行文本提取(或允许您的客户进行文本提取),则不应将其删除。

PDFBox test file with beads