我正在尝试使用edu.uci.ics.crawler4j
lib从本地目录中的html文件中抓取页面。 C:/work/temp/test.html
是它的道路。
我发现crawler4j正在进行Http连接。但是对于这种情况,不需要Http连接。我还使用file://
<{1}}作为"file:///C:/work/temp/test.html" (which is accessible)
从PageFetcher类的代码:
SchemeRegistry schemeRegistry = new SchemeRegistry();
schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory.getSocketFactory()));
if (config.isIncludeHttpsPages()) {
schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));
}
有没有办法在crawler4j的PageFetcher中的SchemeRegistry中注册file://
协议或
crawler4j总是用于服务器上的托管文件吗?
答案 0 :(得分:0)
它应该是您的localhost URL。例如,localhost:80 /应该是目录的根目录。该网址应为http://localhost:80/.......