从博客文章中检测和提取文章内容/评论的最佳方法是什么

时间:2011-08-23 20:03:15

标签: java html detection article

我有博文(sample 1sample 2)。解析HTML并检测作者,标题,日期,文章内容,评论(单独)的最佳方法是什么。应跳过其他所有内容。

2 个答案:

答案 0 :(得分:0)

假设您的博客站点有RSS源,您可以使用Java的SAX Parser来浏览XML

http://download.oracle.com/javase/1.4.2/docs/api/javax/xml/parsers/SAXParser.html

以下是使用SAX Parser解析RSS的示例

http://javabeanz.wordpress.com/2007/07/25/rss-parser-sax/

答案 1 :(得分:0)

您可能无法获得所需的一切,但我认为Boilerpipe值得关注。