应用错误收集

Crawler4j下载文章

时间：2015-04-21 12:07:23

标签： web-crawler crawler4j categorization

我试图使用Crawler4j从新闻门户网站下载文章。我想将它们存储在类别＆＃39; sport＆＃39;下的文件夹中。＆＃39;科学＆＃39; ＆＃39;健康＆＃39;或该门户网站制作的任何其他内容。由于某些门户网站不在网址中使用类别，因此网址解析不够。我唯一的想法是创建一个树并记住当前页面上找到的链接。有没有更简单的方法呢？

1 个答案:

答案 0 :(得分：0)

您可以解析实际页面并使用CSS标记，识别标题或面包屑

我建议使用JSOUP。

您需要知道新闻网站以及哪个css标记是breadcrumb css标记。

crawler4j在不抓取整个网站的情况下抓取网址列表
Crawler4j - 获取异常java.lang.NoSuchMethodError
如何在crawler4j中获取网址为404或301
crawler4j使用类CrawlConfig编译错误 - 期望VariableDeclaratorId
crawler4j打印出极大的系统输出堆栈
Crawler4j缺少传出链接？
如何使用特定的一组网站抓取特定域中的最新文章？
用报纸从多个网址下载文章
Crawler4j下载文章
如何在不下载文章的情况下使用Newspaper3k库？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？