Question

当我尝试Crawler4j的快速启动时example，

controller.java

中的

我想这是我应该更改存储结果的地方。

`public class Controller {
    public static void main(String[] args) throws Exception {
        String crawlStorageFolder = "/data/crawl/root";
        int numberOfCrawlers = 7;

        CrawlConfig config = new CrawlConfig();
        config.setCrawlStorageFolder(crawlStorageFolder);`

首先，我不知道"/data/crawl/root"的文件字典是什么。

然后我尝试更改为"C:\Fraps\try"。它创建了一个名为frontier的文件夹，其中包含一些未知文件，例如je.lck，je.info.0 ......

据我了解，crawler4j可以找到外部链接和内容解析。

这是否意味着包含网络内容的许多不同html文件应出现在此crawlStorageFolder？

换句话说，我可以通过crawler4j下载html文件（里面的文字）？或者我应该通过crawler4j下载什么？

Answer 1

crawlStorageFolder是存储中间抓取数据的文件夹。不用于存储任何类型的已解析和下载的HTML内容的文件夹。

检查this以获取配置说明。

如果要下载和存储提取的数据，则必须在自定义搜寻器实现中实现此行为，该实现应扩展WebCrawler。

检查GitHub上的示例。

如何在Crawler4j中更改默认的crawlStorageFolder？

1 个答案: