使用NSScanner获取Wikipedia文章摘要问题

时间:2010-09-22 18:21:21

标签: cocoa nsstring wikipedia nsscanner

我正在尝试获取文章摘要并将其下载为字符串。这适用于一些文章,但维基百科网站不一致。所以NSScanner经常失败,而它适用于其他文章。

这是我的NSScanner实现:

NSString *separatorString = @"<table id=\"toc\" class=\"toc\">";                                 
NSScanner *aScanner = nil;
NSString *container = nil;
NSString *muString = [NSString stringWithString:@"</table>"];

aScanner = [NSScanner scannerWithString:string];  
[aScanner setScanLocation:0];                                                   
[aScanner scanUpToString:muString intoString:nil];           
[aScanner scanString:muString intoString:nil];    

[aScanner scanUpToString:separatorString intoString:&container];

如何改进?还是有另一种方法来获得这个吗?

为了想象我想要的文章的哪一部分,这是一个例子:

http://en.wikipedia.org/wiki/Indigo

从这里我想要的一切都是从“靛蓝是电磁波谱的颜色”到“英语是在1289年”。

谢谢!

1 个答案:

答案 0 :(得分:1)

您可以使用WebKit's DOM API来实际结构,而不是盲目地解析文本。