应用错误收集

如何从格式化网站检索纯文本以在UIWebView中使用

时间：2011-12-07 12:32:15

标签： xcode uiwebview

不确定我想做什么是可能的，但我希望做的是以某种方式从网站收集某些文本，删除页眉，页脚，背景，所有格式，并将其放入我的应用程序中滚动视图或类似的东西...

我会给你一个例子......想象一下，我正在制作维基百科的iPhone应用程序，我想下载关于狗的wiki的信息，没有标题，侧栏等，只是文本。我该怎么做呢？

据我所知，为此，我没有提供任何示例代码或我尝试或启动的代码，但这只是因为在这种情况下我迷路了！这并不意味着我想要完整的代码块。任何帮助都可以。如果这不起作用，我只需制作一个“移动优化”版本的网页，我希望将其包含在我的应用中。

由于

（编辑：我试图使用的术语是'剥离其HTML编码的网页'）

2 个答案:

答案 0 :(得分：0)

你必须解析html代码并搜索你想要的部分并“扔掉”你不需要的部分。这或多或少像强制执行，网站的代码不应该改变，否则你被搞砸了。因此，您必须使用此方法手动编写解析器。但也许有一个原子或rss feed你可以解析这个。这将更容易，您不依赖于网站布局，因为rss / atom feed只是关于数据。要解析rss，您可以尝试NSXMLParser。然后你必须从数据中创建一个有效的html页面并将其显示在UIWebView

中

答案 1 :(得分：0)

你可能会以错误的方式解决这个问题，或者甚至提出错误的问题。

目标网站是否有某种API或数据源？您能直接从站点获得JSON或XML格式所需的信息吗？

我认为你误解了这项技术。 HTML只是格式化和数据挂起的框架。

解析HTML页面似乎是一个非常令人头痛的问题，我怀疑你是否能够让它工作，因为这些天几乎所有站点都部分或全部在服务器端生成，页面只是结果。

有些网站会将信息隐藏在内存中，而其他网站会通过ajax动态获取信息，这意味着只需通过解析HTML获取数据就可以获得零数据。

您应该注意的另一个问题是，仅仅从生成的网站复制数据可能会导致版权问题。