Crawler / Scraper从特定网站中提取新闻

时间:2016-12-18 12:50:16

标签: java web-crawler jsoup nutch scraper

从新闻网站地址开始,我需要一个java API来检查本网站中的所有新闻页面,并能够对它们进行分类,然后为每个类别提取新闻。我已经尝试过Jsoup,这是最推荐的java scraper API。但是,我遇到了必须对新闻页面进行硬编码的问题,以及每个网站都有不同页面结构的事实,因此我的代码只适用于单个网站,这是不可取的。

我已经阅读过爬虫Nutch,它似乎具有抓取能力,但我不清楚它是否能满足我提到的所有要求。我的问题是,是否有任何现有的爬虫/刮刀有助于实现我的需求?谢谢。

1 个答案:

答案 0 :(得分:0)

从每个新闻资源中提取纯文本是不同的。它与新闻标题的开始和结束标签以及页面中的实际新闻报道的开始和结束标签直接相关,而新闻在大多数情况下与其他内容(例如广告)一起出现。可以使用正则表达式来完成,而我已经在名为RoboNewser的项目中做到了。这是地址: https://www.robonewser.com