pdf文本提取

时间:2010-05-23 19:49:54

标签: pdf text extraction

3 begincidrange 
<20> <7e> 1 
<8140> <817e> 633 
<8180> <81ac> 696 
endcidrange 

这是一个CMAP文件样本。

  1. 如何为自己的数据制作CMAP?
  2. 什么是3 in begincidrange
  3. 什么是&lt; 20&gt; &LT;图7e&GT ;?任何人都可以举个例子

1 个答案:

答案 0 :(得分:2)

您的CMap表为CID映射建立了所有字符代码。

begincidrange运算符之前显示的数字表示映射的数量 线。 endcidrange运算符终止映射块。

begincidrange和endcidrange之间的行包含映射。每行有3个条目。前两个指定字符代码范围,第三个是它们映射到的CID值。

因此字符代码0x20到0x7e映射到CID 1。

Adob​​e Technote 5099描述了CID表的格式。