Crawler4j下载文章

时间:2015-04-21 12:07:23

标签: web-crawler crawler4j categorization

我试图使用Crawler4j从新闻门户网站下载文章。我想将它们存储在类别' sport'下的文件夹中。 '科学' '健康'或该门户网站制作的任何其他内容。由于某些门户网站不在网址中使用类别,因此网址解析不够。我唯一的想法是创建一个树并记住当前页面上找到的链接。有没有更简单的方法呢?

1 个答案:

答案 0 :(得分:0)

您可以解析实际页面并使用CSS标记,识别标题或面包屑

我建议使用JSOUP。

您需要知道新闻网站以及哪个css标记是breadcrumb css标记。