Question

我正在尝试使用edu.uci.ics.crawler4j lib从本地目录中的html文件中抓取页面。 C:/work/temp/test.html是它的道路。

我发现crawler4j正在进行Http连接。但是对于这种情况，不需要Http连接。我还使用file:// <{1}}作为"file:///C:/work/temp/test.html" (which is accessible)

的前缀文件路径

从PageFetcher类的代码：

    SchemeRegistry schemeRegistry = new SchemeRegistry();
    schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory.getSocketFactory()));

    if (config.isIncludeHttpsPages()) {
        schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));
    }

有没有办法在crawler4j的PageFetcher中的SchemeRegistry中注册file://协议或 crawler4j总是用于服务器上的托管文件吗？

Answer 1

它应该是您的localhost URL。例如，localhost：80 /应该是目录的根目录。该网址应为http://localhost:80/.......

将crawler4j用于文件系统上的html文件

1 个答案: