在我的应用中,我有一些网页的网址&我希望通过识别html标签来获得该URL(其html页面)中的特定部分/部分。
例如,我希望根据html源代码获得<div id="content"> to </div>
部分。
这样我就可以将它保存在另一个文件中。
e.g。我的网址是
2) http://www.windpowerengineering.com/policy/new-study-shows-the-benefits-of-wind-energy-in-kansas/
所有这些网址都会打开文章html页面。但我想只显示HTML页面的主要内容。
我还通过以下代码成功获取了一些URL。
我的代码:
NSString *originalString = [NSString stringWithContentsOfURL:[NSURL URLWithString:@"http://www.windpowerengineering.com/uncategorized/how-superfinishing-boosts-component-reliability/"] encoding:NSUTF8StringEncoding error:nil];
NSScanner *scanner = [NSScanner scannerWithString:originalString];
NSString *extractedString = nil;
[scanner scanUpToString:@"<div id=\"content\">" intoString:nil];
[scanner scanString:@"<div id=\"content\">" intoString:nil];
[scanner scanUpToString:@"<div style=\"clear:both;\">" intoString:&extractedString];
if (extractedString)
{
// string was extracted
NSLog(@"%@", extractedString);
}
但是,不同的网页可能包含多个<div style=\"clear:both;\">
标记。因此,当该方法遇到该标记时,它显示我只显示该标记之前的内容。
建议现在,我想要计算所有<div>
标记并尝试从该HTML页面获取所有主要内容。但我很困惑这样做。
我该怎么做?
帮助我!!
谢谢..