标签: java http-headers web-crawler nutch
我可以使用nutch解析http respone标题字段吗?
是否需要配置内置功能?
我看过网络,我找不到任何关于此的信息。
而且,如果我进行本地文件系统爬网,有没有办法解析文件的标题? (大小,描述等字段?)
答案 0 :(得分:-1)
见第144行here。您可以看到可以获取http响应标头,您可以使用该信息。
第二个问题: 对于解析不同的文件类型,有nutch提供的插件。您需要针对特定文件类型进行相同的研究并开始使用。