遇到“特殊”字符时出现NSXMLParser错误

时间:2012-06-26 16:41:19

标签: xml parsing xml-parsing nsxmlparser

我正在尝试使用NSXMLParser来解析看起来像这样的XML文件:

<?xml version="1.0" encoding="us-ascii"?>
<teams>
    <team id = "A1">
        <player1>John</player1>
        <player2>José</player2>
    </team>
    ...
</teams>

我使用以下代码:

NSString *urlString = [NSString stringWithFormat:@"http://www....abc.php?category=%@&poule=%c", @"S", 'B'];  // Obviously, this contains an actual web address
NSURL *url = [NSURL URLWithString:urlString];
NSData *xml = [[NSData alloc] initWithContentsOfURL:url];   // <==
NSXMLParser *xmlParserObject = [[NSXMLParser alloc]initWithData:xml];
[xmlParserObject setDelegate:self];
[xmlParserObject parse];

我实现了didStartElement,foundCharacters,didEndElement和parserErrorOccurred委托函数。

这一切都很顺利,直到遇到'特殊'字符,例如é。委托方法parserErrorOccurred报告以下错误:

parser error: Error Domain=NSXMLParserErrorDomain Code=1544 "The operation couldn’t be completed. (NSXMLParserErrorDomain error 1544.)"
parser error: Error Domain=NSXMLParserErrorDomain Code=5 "The operation couldn’t be completed. (NSXMLParserErrorDomain error 5.)"

然后我用以下内容替换了标有'&lt; =='的部分:

NSError *error;
NSData *xml = [NSString stringWithContentsOfURL:url encoding:NSUTF8StringEncoding error:&error];
if (xml == nil) {
    NSLog(@"*** Fatal error: %@\nuserInfo:%@", error, [error userInfo]);
}

除了上面的错误之外还得到以下错误:

 *** Fatal error: Error Domain=NSCocoaErrorDomain Code=261 "The operation couldn’t be completed. (Cocoa error 261.)" UserInfo=0x8158d90 {NSURL=http://www....abc.php?category=S&poule=B, NSStringEncoding=4}
userInfo:{
    NSStringEncoding = 4;
    NSURL = "http://www....abc.php?category=S&poule=B";
}

我还尝试用任何其他编码器替换NSUTF8StringEncoding,例如NSISOLatin1StringEncoding,NSUTF16StringEncoding,NSASCIIStringEncoding,NSUnicodeStringEncoding等等。这导致以下错误:

 -[__NSCFString bytes]: unrecognized selector sent to instance 0x6e4cbc0
 *** Terminating app due to uncaught exception 'NSInvalidArgumentException', reason: '-[__NSCFString bytes]: unrecognized selector sent to instance 0x6e4cbc0'
*** First throw call stack:
(0x12d0022 0x1781cd6 0x12d1cbd 0x1236ed0 0x1236cb2 0xce5f51 0xb447 0xaa89 0x1f2e330 0x1f2f439 0x908b9b24 0x908bb6fe)
terminate called throwing an exception(lldb) 

我无法控制XML的内容,但如果确实包含不正确的信息,那么我可以与网站管理员联系。

我可以将é字符显示为“e”或“?”如果这就是它需要的东西。

非常感谢任何有关导致此错误的原因以及如何纠正或绕过此错误的建议。

的Tx!

- GB

2 个答案:

答案 0 :(得分:0)

我发现了这个问题的旁路(不是解决方案)。要从NSURL到NSData,我使用了以下代码:

        NSError *error;
        NSString *xmlText = [NSString stringWithContentsOfURL:url encoding:NSASCIIStringEncoding error:&error];
        xmlText = [xmlText stringByReplacingOccurrencesOfString:@"é" withString:@"e"];
        NSData *xml = [xmlText dataUsingEncoding:NSASCIIStringEncoding];

基本上,我

  • 在NSString中转换NSURL
  • 通过替换“特殊”字符
  • 来编辑该字符串
  • 使用已编辑的字符串创建NSData

我还发现我必须使用NSASCIIStringEncoding而不是NSUTF8StringEncoding(这是XML指定的,但之前失败了。)

无论如何,我们仍然欢迎提出真正解决问题的建议,但这种旁路暂时对我有用......

答案 1 :(得分:0)

如果utf-8字符无效,最好清理&#39;在将数据处理到NSXMLParser之前从您的源收到的数据。正如在处理NSXMLParser时经常建议的那样,将数据转换为ascii并不总是一个好主意,例如当您的源包含西里尔字符时。

在Swift中可以这样做:

var buffer = data // malformed UTF-8
buffer.append(0 as UInt16)
let cleanBuffer = buffer.withUnsafeBytes { (p: UnsafePointer<CChar>) in String(cString: p) }
let cleanString = cleanBuffer.replacingOccurrences(of: "\u{FFFD}", with: String())
let cleanData = clean.data(using: String.Encoding.utf8) {
   self.parser = XMLParser(data: cleanData) // Assuming a 'parser' variable is already present
}

基于Cleaning malformed UTF8 strings