从新闻文章Web页面中提取主要内容(最高文本密度)

时间:2012-03-02 12:01:43

标签: java text html-parsing webpage

我想制作一个代码来从新闻网站中提取主要新闻。新闻网站包含主要新闻,广告,评论,版权声明,所以我只想获得像samppipe一样的主要新闻,但我想知道如何做到这一点。

所以我希望了解有关这项工作的流程的信息。

Sudhanshu

4 个答案:

答案 0 :(得分:8)

samppipe网站包含源代码,快速入门说明,原始科学论文的链接以及相应的会议演示视频:

http://code.google.com/p/boilerpipe/

这应该为您提供一套非常全面的信息,说明其工作原理以及如何在您的方案中应用此功能。

最佳,

基督教

答案 1 :(得分:2)

我们尝试了许多开源搜寻器,例如Readability,Beautiful Soup等,但在测试Diffbot API之后,我们决定将它用于AppMarkt。它可以快速地从各种语言中提取新闻文章。

答案 2 :(得分:0)

JSOUP提供了解析HTML的API

答案 3 :(得分:0)

我会试试htmlcleaner

  

HTMLCleaner是一个Java库,用于安全地解析和转换在Web上找到的任何HTML到格式良好的XML。它设计小巧,快速,灵活且独立。 HtmlCleaner可用于java代码,命令行工具或Ant任务。解析的结果是轻量级文档对象模型,可以很容易地转换为DOM或JDom等标准,或者以各种方式序列化为XML输出(紧凑,漂亮的打印等)。

你可以使用XPath和htmlcleaner来获取xml / html标签内的内容。这是一个不错的选择      例如Xpath Example