哪个类最适合读取和表示HTML文件?

时间:2013-05-29 07:18:20

标签: objective-c macos cocoa

这是一个初学者的问题。基础课程的平台和课程数量简直难以理解,所以我希望SO社区能够提供现成的答案。

这是我的用例:

我想在html文件中阅读并提取 p 标记中的所有文字。

我不需要显示html标记。但是,如果Webkit有解决方案,我很乐意使用它。

在python世界中,答案将是Beautiful Soup。我正在寻找相当于OSX基础套件或任何可能达到目标的类。

1 个答案:

答案 0 :(得分:3)

您可以使用NSXMLDocument并将NSXMLDocumentTidyXML作为mask选项之一传递。
这将允许NSXMLDocument解析非XHTML文档(如果它们没有完全格式错误)。

要获取所有p元素的节点列表,可以在NSXMLDocument实例上使用以下XPath表达式:
        NSArray * pNodes = [projectDocument nodesForXPath:@“// * / @ p”错误:nil];

要获取p节点的文本内容,请使用stringValue属性。