如何在Crawler4j中更改默认的crawlStorageFolder?

时间:2016-09-11 07:05:08

标签: java parsing web-crawler jsoup crawler4j

当我尝试Crawler4j的快速启动时example

controller.java

中的

我想这是我应该更改存储结果的地方。

`public class Controller {
    public static void main(String[] args) throws Exception {
        String crawlStorageFolder = "/data/crawl/root";
        int numberOfCrawlers = 7;

        CrawlConfig config = new CrawlConfig();
        config.setCrawlStorageFolder(crawlStorageFolder);`

首先,我不知道"/data/crawl/root"的文件字典是什么。

然后我尝试更改为"C:\Fraps\try"。它创建了一个名为frontier的文件夹,其中包含一些未知文件,例如je.lck,je.info.0 ......

据我了解,crawler4j可以找到外部链接和内容解析。

这是否意味着包含网络内容的许多不同html文件应出现在此crawlStorageFolder

换句话说,我可以通过crawler4j下载html文件(里面的文字)?或者我应该通过crawler4j下载什么?

1 个答案:

答案 0 :(得分:2)

crawlStorageFolder是存储中间抓取数据的文件夹。 用于存储任何类型的已解析和下载的HTML内容的文件夹。

检查this以获取配置说明。

如果要下载和存储提取的数据,则必须在自定义搜寻器实现中实现此行为,该实现应扩展WebCrawler

检查GitHub上的示例。