应用错误收集

从新闻文章Web页面中提取主要内容（最高文本密度）

时间：2012-03-02 12:01:43

标签： java text html-parsing webpage

所以我希望了解有关这项工作的流程的信息。

Sudhanshu

4 个答案:

答案 0 :(得分：8)

samppipe网站包含源代码，快速入门说明，原始科学论文的链接以及相应的会议演示视频：

http://code.google.com/p/boilerpipe/

这应该为您提供一套非常全面的信息，说明其工作原理以及如何在您的方案中应用此功能。

最佳，

基督教

答案 1 :(得分：2)

我们尝试了许多开源搜寻器，例如Readability，Beautiful Soup等，但在测试Diffbot API之后，我们决定将它用于AppMarkt。它可以快速地从各种语言中提取新闻文章。

答案 2 :(得分：0)

JSOUP提供了解析HTML的API

答案 3 :(得分：0)

我会试试htmlcleaner。

HTMLCleaner是一个Java库，用于安全地解析和转换在Web上找到的任何HTML到格式良好的XML。它设计小巧，快速，灵活且独立。 HtmlCleaner可用于java代码，命令行工具或Ant任务。解析的结果是轻量级文档对象模型，可以很容易地转换为DOM或JDom等标准，或者以各种方式序列化为XML输出（紧凑，漂亮的打印等）。

你可以使用XPath和htmlcleaner来获取xml / html标签内的内容。这是一个不错的选择例如Xpath Example