Question

我已经开始使用crawler4j，它似乎正在查找没有问题的网站。但是，我需要保存已爬网的数据。 crawler4j是否支持此功能？

我尝试过使用高级java源代码（和Downloader.java），但似乎没有工作

具体来说，下面的代码从不打印任何内容。

    Downloader myDownloader = new Downloader();
    Page page = myDownloader.download("http://ics.uci.edu");

    if (page != null) {
        System.out.println(page.getText());
    }

我很感激对此的一些意见

谢谢

Answer 1

如果您正在滚动扩展WebCrawler类的自己的Crawler，则可以访问在Visit（Page）方法中抓取的页面的详细信息。例如，以下内容将为您提供页面内容：

String content = new String(page.getContentData(), page.getContentCharset());

从那里，您可以将其保存到磁盘或应用所需的任何处理。

Answer 2

你有没有尝试过其他页面？事实上，您使用的网址缺少“www”。正确的是http://www.ics.uci.edu/

使用crawler4j。我如何保存网站数据？

2 个答案: