Question

我刚刚坐下来试着写一小段代码，这些代码可以在.pdf文件中读取，获取某些流（或者在这种情况下只有一个），解压缩它并...尝试发出可读文本，所以基本上用ASCII。从流中的字典我知道它的过滤器是DecodeFlate。通过手册，这意味着通过zlib压缩。我在stackoverflow上找到了一个示例，其中提到应该使用gzuncompress来还原它。所以，这是我的代码片段。

$file = ('mypdf.pdf');
$data = fopen($file, "rb");
$size = filesize($file);
$contents = fread($data,$size);
fclose($data);
// irrelevant code finding a certain xx 0 obj and setting start_pos to it
$start_pos = strpos($contents,'stream', $start_pos);
$end_pos = strpos($contents,'endstream', $start_pos);
$start_pos = $start_pos +8;
$end_pos = $end_pos -2;
$substring = substr($contents, $start_pos, $end_pos);
$result = gzuncompress($substring);
echo $substring;

直到这一点，一切正常，我想。找到该流，其长度与其序列中提到的相同。 gzuncompress也有效。然而，在这一点上，我不知道如何继续。我得到了以下结果：

q 1 0 0 -1 0 841.889 cm q 1 0 0 1 70.866 28.346 cm 0 g /P <> BDC BT /F21 8 Tf 1 0 0 -1 0 19.17900085 Tm [<002800090016001000010005001000110001001A00120006000500130010000A00140009000A00140011001F>] TJ ET EMC /P <> BDC BT /F21 8 Tf 1 0 0 -1 0 28.77899933 Tm

等等，很多[＆lt; ....＆gt;]和其他东西。从现在开始如何继续，我一无所知。或者如果可能的话。

提前致谢

Answer 1

随着我对它的深入了解，我注意到了一些关于这些pdf结构的事情。由于它们基本上都是一样的，我可以稍微利用它。只有2种字体，F21和F22。两者都在某个对象之前定义并应用于它直到文档结束。对于初始启动，我必须解压缩流，检查解码部分中是否存在CIDMap。如果是，请构建CMap。然后我可以遍历包含我想要的数据的对象，并通过CMap将Hex值转换为相应的UTF8，我应该完成。

处理未压缩的流

1 个答案: