我试图使用Crawler4j从新闻门户网站下载文章。我想将它们存储在类别' sport'下的文件夹中。 '科学' '健康'或该门户网站制作的任何其他内容。由于某些门户网站不在网址中使用类别,因此网址解析不够。我唯一的想法是创建一个树并记住当前页面上找到的链接。有没有更简单的方法呢?
答案 0 :(得分:0)
您可以解析实际页面并使用CSS标记,识别标题或面包屑
我建议使用JSOUP。
您需要知道新闻网站以及哪个css标记是breadcrumb css标记。