标签: pdf text unicode replace
我正在解析PDF文件。我解码了所有流,从文本对象和ToUnicode CMaps获取文本。但我不知道,我什么时候需要从ToUnicode CMaps中将文本中的符号替换为符号(字符串)。
当我看到一些像< 01239099>我使用这个转换表,一切都OK。但有些文件需要,我使用转换表,同时解析简单的文本 [(。&) - 2(.K)-5(.D)-8(.S)],那么一切都还可以。
有人知道规则,哪些符号需要使用转换表替换?