用于在Android中获取RSS提要的HTML解析

时间:2012-12-31 11:44:32

标签: android rss html-parsing

我正在尝试开发一个应用来从http://xxx.xxx.com/xxxxxblog获取RSS源。 有人可以帮我解析HTML以获取提要吗?

3 个答案:

答案 0 :(得分:0)

您可以尝试使用JSoup来解析HTML。

使用起来非常简单,并且有很好的文档记录,解析页面时不应该太麻烦。

您可以在此页面找到如何执行此操作

http://jsoup.org/cookbook/extracting-data/selector-syntax

它使用不同的html标记来解析该标记之间的数据。

答案 1 :(得分:0)

此网页上的Feed似乎由<dc:subject>标记明确分隔。 由于您只需要获取Feed,因此最短的方法可能更好地使用正则表达式获取Feed边界,该表达式也会捕获标题(类似<dc:subject>(.*?)</dc:subject>)。一旦检测到表达式,就逐行读取 - 这是Feed的开头。也许它在哲学上不是最正确的方式,我们应该解析所有HTML,但为什么要运行不必要的代码...

也不乏Java内置解析器,从Java的内置HTML解析器开始,继续使用各种替代库,在某些情况下可能更适合,有些还建议使用XML解析器(XPath)。讨论了各种解决方案here

答案 2 :(得分:0)

请尝试

使用此示例代码创建实际可以处理命名空间扩展的RSS阅读器

https://github.com/dodyg/AndroidRivers/blob/master/src/com/silverkeytech/android_rivers/xml/RssParser.kt

此代码底层的库是https://github.com/thebuzzmedia/simple-java-xml-parser

它在Android中运行良好。