我正在构建一些东西来提取PDF数据(不仅是文本,还有位置),我想出了一个在acrobat reader中打开时有大量文本的文档,但当我尝试使用tokeniser解析它时,我我越来越低而不是正确的字符串:
TK_START_ARRAY:
TK_STRING:
TK_END_ARRAY:
我认为它是编码或hexwriting,但我不知道如何让它可读。有人可以帮忙吗?
这是此文件包含的另一个示例:
TK_NUMBER:1
TK_NUMBER:0
TK_NUMBER:0
TK_NUMBER:-1
TK_NUMBER:18
TK_NUMBER:9.98
TK_OTHER:Tm
TK_START_ARRAY:
TK_STRING: % & '
TK_STRING:
TK_STRING: ( ' ) *
TK_STRING:
TK_STRING: + , - .
TK_STRING:
TK_STRING: , / /
TK_STRING:
TK_STRING: 0 . 1 ' 2 0 . 3
TK_STRING:
TK_STRING: * 0 , - . /
TK_STRING:
TK_STRING: 3 & 4 ' ( . 5 * )
TK_STRING:
TK_STRING: 6 2 * +
TK_STRING:
TK_STRING: 7 & '
TK_END_ARRAY:
TK_OTHER:TJ