我正在进行pdf扫描,我想从PDF中提取文本。 我正在使用pdf Multithreading.pdf进行搜索。我能够提取文本,但无法从文本中提取空格。我只获得Tj操作符的回调而不是TJ。 可能是什么问题?
由于
答案 0 :(得分:3)
我能够提取文本但是无法从文本中提取空格。我只获得Tj操作符的回调,而不是TJ。
原因在于您的sample document
E.g。标题页的文本绘制操作
是:
BT
/F0 50 Tf
1 0 0 1 60 669.225 Tm
(\0006)Tj % T
1 0 0 1 83.527 669.225 Tm
(\000J\000T)Tj % hr
1 0 0 1 125.631 669.225 Tm
(\000G\000C\000F\000K\000P\000I)Tj % eading
1 0 0 1 273.395 669.225 Tm
(\0002)Tj % P
1 0 0 1 298.272 669.225 Tm
(\000T)Tj % r
1 0 0 1 313.599 669.225 Tm
(\000Q)Tj % o
1 0 0 1 340.076 669.225 Tm
(\000I\000T)Tj % gr
1 0 0 1 382.43 669.225 Tm
(\000C\000O\000O\000K\000P\000I)Tj % amming
0 Tc
1 0 0 1 60 609.225 Tm
(\000\))Tj % G
1 0 0 1 91.7 609.225 Tm
(\000W\000K\000F\000G)Tj % uide
ET
Tj 文字绘图操作中没有空格,仅使用 Tm 在绘图位置上移动。