从URL获取文本

时间:2011-10-02 22:02:56

标签: macos cocoa osx-lion

我想从URL获取纯文本(最终向用户显示)。我知道如何提取所有内容,但我得到的是所有这些HTML内容,隐藏的东西等 我只是看了纯文本,没有布局。并没有真正剥离内容中的所有html标签,而是解析了一些,然后没有布局。首先与其他文本进行比较,然后再显示它。

有没有简单的方法可以做到这一点? (任何现有代码?)

2 个答案:

答案 0 :(得分:2)

使用DOM。

首先,将资源加载到WebView。你不需要把它放在一个窗口里。

然后,after it finishes loading,询问the view's mainFrameDocument,然后询问文档its documentElement,然后将 its textContent

>

答案 1 :(得分:0)

您可以使用可读性来提取内容。 我不知道是否有Obj-C版本,但您可以使用[yourWebView stringByEvaluatingJavaScriptFromString:@"readability_js_code"]

的javascript

如果您不是通过UIWebView(ASIHTTP或自定义代码)检索页面的内容(html),请尝试使用XML Parser解析(例如NSXMLParser

希望这会有所帮助:)