我正在尝试开发一个应用来从http://xxx.xxx.com/xxxxxblog获取RSS源。 有人可以帮我解析HTML以获取提要吗?
答案 0 :(得分:0)
您可以尝试使用JSoup来解析HTML。
使用起来非常简单,并且有很好的文档记录,解析页面时不应该太麻烦。
您可以在此页面找到如何执行此操作
http://jsoup.org/cookbook/extracting-data/selector-syntax
它使用不同的html标记来解析该标记之间的数据。
答案 1 :(得分:0)
此网页上的Feed似乎由<dc:subject>
标记明确分隔。
由于您只需要获取Feed,因此最短的方法可能更好地使用正则表达式获取Feed边界,该表达式也会捕获标题(类似<dc:subject>(.*?)</dc:subject>
)。一旦检测到表达式,就逐行读取 - 这是Feed的开头。也许它在哲学上不是最正确的方式,我们应该解析所有HTML,但为什么要运行不必要的代码...
也不乏Java内置解析器,从Java的内置HTML解析器开始,继续使用各种替代库,在某些情况下可能更适合,有些还建议使用XML解析器(XPath)。讨论了各种解决方案here。
答案 2 :(得分:0)
请尝试
使用此示例代码创建实际可以处理命名空间扩展的RSS阅读器
此代码底层的库是https://github.com/thebuzzmedia/simple-java-xml-parser。
它在Android中运行良好。