如何使用java从新闻文章中提取发布时间和文章内容?

时间:2013-03-20 10:11:53

标签: java html

我必须从新闻链接中提取发布时间和文章内容。

ex:来自此链接 http://techcrunch.com/2013/03/19/jawbone-android/

我必须将发布时间和文章内容提取为

发布时间:昨天发布

文章内容: Jawbone今天宣布其公司的运动跟踪腕带UP应用程序现已在Google Play上免费下载Android版。 129美元的UP以前只与iOS兼容。腕带现在也可以购买......

2 个答案:

答案 0 :(得分:2)

我认为你可以使用jsoup

http://jsoup.org/

jsoup是一个用于处理真实HTML的Java库。它提供了一个非常方便的API,用于提取和操作数据,使用最好的DOM,CSS和类似jquery的方法。

答案 1 :(得分:0)

对于文章文本提取,您可以使用BoilerPipe

 ArticleExtractor extractor = ArticleExtractor.INSTANCE
 String articleText = extractor.getText(yourHTML);