这是一个初学者的问题。基础课程的平台和课程数量简直难以理解,所以我希望SO社区能够提供现成的答案。
这是我的用例:
我想在html文件中阅读并提取 p 标记中的所有文字。
我不需要显示html标记。但是,如果Webkit有解决方案,我很乐意使用它。
在python世界中,答案将是Beautiful Soup。我正在寻找相当于OSX基础套件或任何可能达到目标的类。
答案 0 :(得分:3)
您可以使用NSXMLDocument
并将NSXMLDocumentTidyXML
作为mask
选项之一传递。
这将允许NSXMLDocument
解析非XHTML文档(如果它们没有完全格式错误)。
要获取所有p元素的节点列表,可以在NSXMLDocument
实例上使用以下XPath表达式:
NSArray * pNodes = [projectDocument nodesForXPath:@“// * / @ p”错误:nil];
要获取p节点的文本内容,请使用stringValue属性。