我想制作一个代码来从新闻网站中提取主要新闻。新闻网站包含主要新闻,广告,评论,版权声明,所以我只想获得像samppipe一样的主要新闻,但我想知道如何做到这一点。
所以我希望了解有关这项工作的流程的信息。
Sudhanshu
答案 0 :(得分:8)
samppipe网站包含源代码,快速入门说明,原始科学论文的链接以及相应的会议演示视频:
http://code.google.com/p/boilerpipe/
这应该为您提供一套非常全面的信息,说明其工作原理以及如何在您的方案中应用此功能。
最佳,
基督教
答案 1 :(得分:2)
我们尝试了许多开源搜寻器,例如Readability,Beautiful Soup等,但在测试Diffbot API之后,我们决定将它用于AppMarkt。它可以快速地从各种语言中提取新闻文章。
答案 2 :(得分:0)
JSOUP提供了解析HTML的API
答案 3 :(得分:0)
我会试试htmlcleaner。
HTMLCleaner是一个Java库,用于安全地解析和转换在Web上找到的任何HTML到格式良好的XML。它设计小巧,快速,灵活且独立。 HtmlCleaner可用于java代码,命令行工具或Ant任务。解析的结果是轻量级文档对象模型,可以很容易地转换为DOM或JDom等标准,或者以各种方式序列化为XML输出(紧凑,漂亮的打印等)。
你可以使用XPath
和htmlcleaner来获取xml / html标签内的内容。这是一个不错的选择
例如Xpath Example