当我尝试Crawler4j的快速启动时example,
controller.java
中的
我想这是我应该更改存储结果的地方。
`public class Controller {
public static void main(String[] args) throws Exception {
String crawlStorageFolder = "/data/crawl/root";
int numberOfCrawlers = 7;
CrawlConfig config = new CrawlConfig();
config.setCrawlStorageFolder(crawlStorageFolder);`
首先,我不知道"/data/crawl/root"
的文件字典是什么。
然后我尝试更改为"C:\Fraps\try"
。它创建了一个名为frontier的文件夹,其中包含一些未知文件,例如je.lck,je.info.0 ......
据我了解,crawler4j
可以找到外部链接和内容解析。
这是否意味着包含网络内容的许多不同html
文件应出现在此crawlStorageFolder
?
换句话说,我可以通过crawler4j
下载html文件(里面的文字)?或者我应该通过crawler4j
下载什么?