iOS - 日文PDF文本提取

时间:2015-07-07 13:41:36

标签: ios pdf

我有日语pdf,差异数组如下

1 = G700;
2 = G12db;
3 = G3a11;
4 = G137f;
5 = G2eee;
6 = G2068;
7 = G4ec5;
8 = G701;

如何在iOS中将这些差异值转换为日文文本?

1 个答案:

答案 0 :(得分:0)

PSPDFKit此处作者(适用于iOS和Android的PDF框架,也可以进行文本提取);我们在CMap解析和PDF文本提取以及转换为unicode方面工作了几年。对于JCK字符,您需要一组Adobe提供的CMap,您可以加载,解析然后使用它们来实际提取unicode。

没有必要再次解释这个过程,因为它全部涵盖在Adobe Docs中,您还需要实现所有边缘案例,以使其适用于所有文档。这是一个很好的起点:

http://partners.adobe.com/public/developer/en/font/5094.CJK_CID.pdf https://blogs.adobe.com/insidepdf/2008/07/text_content_in_pdf_files.html

您需要的CMaps可以从Adobe或其他各个地方下载: http://www.pdflib.com/download/resources/cmaps/ (请务必查看相关的许可证)