应用错误收集

用于在Android中获取RSS提要的HTML解析

时间：2012-12-31 11:44:32

标签： android rss html-parsing

我正在尝试开发一个应用来从http://xxx.xxx.com/xxxxxblog获取RSS源。有人可以帮我解析HTML以获取提要吗？

3 个答案:

答案 0 :(得分：0)

您可以尝试使用JSoup来解析HTML。

使用起来非常简单，并且有很好的文档记录，解析页面时不应该太麻烦。

您可以在此页面找到如何执行此操作

http://jsoup.org/cookbook/extracting-data/selector-syntax

它使用不同的html标记来解析该标记之间的数据。

答案 1 :(得分：0)

此网页上的Feed似乎由<dc:subject>标记明确分隔。由于您只需要获取Feed，因此最短的方法可能更好地使用正则表达式获取Feed边界，该表达式也会捕获标题（类似<dc:subject>(.*?)</dc:subject>）。一旦检测到表达式，就逐行读取 - 这是Feed的开头。也许它在哲学上不是最正确的方式，我们应该解析所有HTML，但为什么要运行不必要的代码...

也不乏Java内置解析器，从Java的内置HTML解析器开始，继续使用各种替代库，在某些情况下可能更适合，有些还建议使用XML解析器（XPath）。讨论了各种解决方案here。

答案 2 :(得分：0)

请尝试

使用此示例代码创建实际可以处理命名空间扩展的RSS阅读器

https://github.com/dodyg/AndroidRivers/blob/master/src/com/silverkeytech/android_rivers/xml/RssParser.kt

此代码底层的库是https://github.com/thebuzzmedia/simple-java-xml-parser。

它在Android中运行良好。