如何使用QuartzPDF在PDF中搜索非ASCII字符(西里尔文)?

时间:2012-04-06 06:49:10

标签: ios pdf sdk full-text-search quartz-2d

我偶然发现使用PDDScanner在PDF中搜索西里尔字母(以及任何其他非ASCII字符)。我使用的代码类似于Randon ideas博客提供的SO代码。问题是对于cyrilic PDF,扫描仪的输出是一个完整的垃圾,无法解码为任何有意义的东西。西里尔文PDF中的英文字符搜索得非常完美。所以,问题在于,当涉及到西里尔字母时,它被编码,我们无法正确解码它。

我们在这里想念什么?

提前感谢任何能够阐明这个问题的人。

2 个答案:

答案 0 :(得分:1)

您是否尝试通过不同的编码推送该字符串?当我看到NSString.h时,我看到一些可疑的标有“西里尔字母”的东西,它也在同一行上有“Adobe”:)(即试试NSWindowsCP1251StringEncoding

enum {
    NSASCIIStringEncoding = 1,      /* 0..127 only */
    NSNEXTSTEPStringEncoding = 2,
    NSJapaneseEUCStringEncoding = 3,
    NSUTF8StringEncoding = 4,
    NSISOLatin1StringEncoding = 5,
    NSSymbolStringEncoding = 6,
    NSNonLossyASCIIStringEncoding = 7,
    NSShiftJISStringEncoding = 8,          /* kCFStringEncodingDOSJapanese */
    NSISOLatin2StringEncoding = 9,
    NSUnicodeStringEncoding = 10,
    NSWindowsCP1251StringEncoding = 11,    /* Cyrillic; same as AdobeStandardCyrillic */
    NSWindowsCP1252StringEncoding = 12,    /* WinLatin1 */
    NSWindowsCP1253StringEncoding = 13,    /* Greek */
    NSWindowsCP1254StringEncoding = 14,    /* Turkish */
    NSWindowsCP1250StringEncoding = 15,    /* WinLatin2 */
    NSISO2022JPStringEncoding = 21,        /* ISO 2022 Japanese encoding for e-mail */
    NSMacOSRomanStringEncoding = 30,

    NSUTF16StringEncoding = NSUnicodeStringEncoding,      /* An alias for NSUnicodeStringEncoding */

    NSUTF16BigEndianStringEncoding = 0x90000100,          /* NSUTF16StringEncoding encoding with explicit endianness specified */
    NSUTF16LittleEndianStringEncoding = 0x94000100,       /* NSUTF16StringEncoding encoding with explicit endianness specified */

    NSUTF32StringEncoding = 0x8c000100,                   
    NSUTF32BigEndianStringEncoding = 0x98000100,          /* NSUTF32StringEncoding encoding with explicit endianness specified */
    NSUTF32LittleEndianStringEncoding = 0x9c000100        /* NSUTF32StringEncoding encoding with explicit endianness specified */
};

答案 1 :(得分:0)

您可能需要深入了解Apple spec and headers on this - 添加NSLog行(并在此处发布),以便扫描程序找到普通PDF和西里尔文的内容。有很多可能性(可能是不同的编码,即你需要使用编码将你拥有的字符串翻译成不同的字符串)。我确信有一种方法可以列出表格中的所有运算符,看看你的西里尔语pdf中是否有额外的运算符。此外,this might help是您尝试解决的一个非常相似的问题 - 它也指向library that is more tuned to scanning