我已经开始使用crawler4j,它似乎正在查找没有问题的网站。但是,我需要保存已爬网的数据。 crawler4j是否支持此功能?
我尝试过使用高级java源代码(和Downloader.java),但似乎没有工作
具体来说,下面的代码从不打印任何内容。
Downloader myDownloader = new Downloader();
Page page = myDownloader.download("http://ics.uci.edu");
if (page != null) {
System.out.println(page.getText());
}
我很感激对此的一些意见
谢谢
答案 0 :(得分:2)
如果您正在滚动扩展WebCrawler类的自己的Crawler,则可以访问在Visit(Page)方法中抓取的页面的详细信息。例如,以下内容将为您提供页面内容:
String content = new String(page.getContentData(), page.getContentCharset());
从那里,您可以将其保存到磁盘或应用所需的任何处理。
答案 1 :(得分:0)
你有没有尝试过其他页面?事实上,您使用的网址缺少“www”。正确的是http://www.ics.uci.edu/