在解析xml时,在读取更多
之后,某些字线结束后没有完整的数据以下三个代码位于一个单独的html页面中,为了更好地理解,我认为是这样。
我正在使用NSXMLParser将其解析到我的iPhone应用程序中。
问题是它解析到<Style>
以下然后它会停止从文本解析后完全忽略文本下面的数据!!!
<head>
<title>North Mobile County Middle School: Latest News > "1st Annual NMCK-8 Christmas Music Program"</title>
<META HTTP-EQUIV="X-UA-COMPATIBLE" CONTENT="IE=EmulateIE9">
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta http-equiv="imagetoolbar" content="no">
<script type="text/javascript" src="JavaScripts.js"></script>
<script type="text/javascript" src="JavaScripts/NiceTitles.js"></script>
<style type="text/css">
我正在拆分代码以便更好地理解
!--
body {
margin:0; padding:0;
background: #fff;}
body, td {
font: normal 13px "Trebuchet MS", Arial, Helvetica, sans-serif;
color:#333;}
/***********************************************/
/* Links
/***********************************************/
a:link, a:visited {
color: #CD0000;
text-decoration: none;}
a:hover, a:active {
color: #06f;
text-decoration: underline;}
img {border: 0;}
我正在拆分代码以便更好地理解
#MainPageArea {padding: 0 15px 15px 15px}
</style>
<link href="http://images.pcmac.org/SiSFiles/Schools/AL/MobileCounty/NorthMobileMiddle/styles.css" rel="stylesheet" type="text/css">
<!--[if lt IE 7]>
<link href="Common/CommonIncludes/Template11/IEStyles.css" rel="stylesheet" type="text/css">
<![endif]-->
<link rel="Shortcut Icon" type="image/ico" href="http://images.pcmac.org/SiSFiles/Schools/AL/MobileCounty/NorthMobileMiddle/images/favicon.ico" />
</head>
<body class="DefaultPage">
<table align="center" cellpadding="0" cellspacing="0" width="986" border="0" id="PageWrapper">
<tr>
<td valign="top">
<div id="Header">
我使用的代码如下:
-(id) loadHtmlByURL:(NSString *)urlString
{
NSURL *url = [NSURL URLWithString:urlString];
NSData *nsData = [[NSData alloc] initWithContentsOfURL:url];
elementArray = [[NSMutableArray alloc] init];
parser = [[NSXMLParser alloc] initWithData:nsData];
parser.delegate = self;
[parser parse];
currentHTMLElement = [HtmlElement alloc];
return self;
}
- (void) parser:(NSXMLParser *)parser didStartElement:(NSString *)elementname namespaceURI:(NSString *)namespaceURI qualifiedName:(NSString *)qName attributes:(NSDictionary *)attributeDict
{
NSLog(@"%@",elementname);
currentHTMLElement = [[HtmlElement alloc] autorelease];
}
- (void) parser:(NSXMLParser *)parser didEndElement:(NSString *)elementname namespaceURI:(NSString *)namespaceURI qualifiedName:(NSString *)qName
{
NSLog(@"%@",elementname);
if ([elementname isEqualToString:@"head"])
{
currentHTMLElement.tag = elementname;
currentHTMLElement.value = currentNodeContent;
[elementArray addObject:currentHTMLElement];
currentHTMLElement = nil;
currentNodeContent = nil;
// NSLog(@"x%@",elementArray);
}
我知道我被击中了吗
答案 0 :(得分:1)
您应该只使用NSXMLParser
类来解析实际上是XML的东西。 HTML不是,除非是XHTML,否则您的来源不是:meta
标记未关闭且您的style
标记以一条永不关闭的评论开头(我猜,这是解析器永远不会读过去的原因);另外,title
的文本节点内容应仅包含>
和"
的转义版本(转义序列为>
和"
)。
如果您控制HTML,请尝试将其更改为符合XML(并因此符合XHTML)。如果您无法更改HTML,请尝试标记汤解析,例如使用hpple。
答案 1 :(得分:0)
以下是解析HTML页面的教程 http://www.raywenderlich.com/14172/how-to-parse-html-on-ios