扫描PDF时未检测到空格 - iOS(CGPDFScanner)

时间:2014-11-20 12:29:49

标签: ios pdf cgpdfscanner

我正在进行pdf扫描,我想从PDF中提取文本。 我正在使用pdf Multithreading.pdf进行搜索。我能够提取文本,但无法从文本中提取空格。我只获得Tj操作符的回调而不是TJ。 可能是什么问题?

由于

1 个答案:

答案 0 :(得分:3)

  

我能够提取文本但是无法从文本中提取空格。我只获得Tj操作符的回调,而不是TJ。

原因在于您的sample document

  1. 文本绘制操作中不使用空格,而是使用 Tm 操作更改文本绘制位置;和
  2. 仅使用 Tj 文字绘图操作,没有 TJ
  3. E.g。标题页的文本绘制操作

    title on the title page

    是:

    BT
    /F0 50 Tf
    1 0 0 1 60 669.225 Tm
    (\0006)Tj                                    %  T
    1 0 0 1 83.527 669.225 Tm
    (\000J\000T)Tj                               %  hr
    1 0 0 1 125.631 669.225 Tm
    (\000G\000C\000F\000K\000P\000I)Tj           %  eading
    1 0 0 1 273.395 669.225 Tm
    (\0002)Tj                                    %  P
    1 0 0 1 298.272 669.225 Tm
    (\000T)Tj                                    %  r
    1 0 0 1 313.599 669.225 Tm
    (\000Q)Tj                                    %  o
    1 0 0 1 340.076 669.225 Tm
    (\000I\000T)Tj                               %  gr
    1 0 0 1 382.43 669.225 Tm
    (\000C\000O\000O\000K\000P\000I)Tj           %  amming
    0 Tc
    1 0 0 1 60 609.225 Tm
    (\000\))Tj                                   %  G
    1 0 0 1 91.7 609.225 Tm
    (\000W\000K\000F\000G)Tj                     %  uide
    ET  
    

    Tj 文字绘图操作中没有空格,仅使用 Tm 在绘图位置上移动。