如何从格式化网站检索纯文本以在UIWebView中使用

时间:2011-12-07 12:32:15

标签: xcode uiwebview

不确定我想做什么是可能的,但我希望做的是以某种方式从网站收集某些文本,删除页眉,页脚,背景,所有格式,并将其放入我的应用程序中滚动视图或类似的东西...

我会给你一个例子......想象一下,我正在制作维基百科的iPhone应用程序,我想下载关于狗的wiki的信息,没有标题,侧栏等,只是文本。我该怎么做呢?

据我所知,为此,我没有提供任何示例代码或我尝试或启动的代码,但这只是因为在这种情况下我迷路了!这并不意味着我想要完整的代码块。任何帮助都可以。如果这不起作用,我只需制作一个“移动优化”版本的网页,我希望将其包含在我的应用中。

由于

(编辑:我试图使用的术语是'剥离其HTML编码的网页')

2 个答案:

答案 0 :(得分:0)

你必须解析html代码并搜索你想要的部分并“扔掉”你不需要的部分。这或多或少像强制执行,网站的代码不应该改变,否则你被搞砸了。因此,您必须使用此方法手动编写解析器。但也许有一个原子或rss feed你可以解析这个。这将更容易,您不依赖于网站布局,因为rss / atom feed只是关于数据。要解析rss,您可以尝试NSXMLParser。 然后你必须从数据中创建一个有效的html页面并将其显示在UIWebView

答案 1 :(得分:0)

你可能会以错误的方式解决这个问题,或者甚至提出错误的问题。

目标网站是否有某种API或数据源? 您能直接从站点获得JSON或XML格式所需的信息吗?

我认为你误解了这项技术。 HTML只是格式化和数据挂起的框架。

解析HTML页面似乎是一个非常令人头痛的问题,我怀疑你是否能够让它工作,因为这些天几乎所有站点都部分或全部在服务器端生成,页面只是结果。

有些网站会将信息隐藏在内存中,而其他网站会通过ajax动态获取信息,这意味着只需通过解析HTML获取数据就可以获得零数据。

您应该注意的另一个问题是,仅仅从生成的网站复制数据可能会导致版权问题。