标签: java html detection article
我有博文(sample 1,sample 2)。解析HTML并检测作者,标题,日期,文章内容,评论(单独)的最佳方法是什么。应跳过其他所有内容。
答案 0 :(得分:0)
假设您的博客站点有RSS源,您可以使用Java的SAX Parser来浏览XML
http://download.oracle.com/javase/1.4.2/docs/api/javax/xml/parsers/SAXParser.html
以下是使用SAX Parser解析RSS的示例
http://javabeanz.wordpress.com/2007/07/25/rss-parser-sax/
答案 1 :(得分:0)
您可能无法获得所需的一切,但我认为Boilerpipe值得关注。