我在Eclipse Juno SR1和JRE 1.7.0_25上运行Nutch 2.2.1
PARSE步骤失败,出现此错误:
2013-08-15 19:35:26,555 ERROR tika.TikaParser - Can't retrieve Tika parser for mime-type application/pdf
2013-08-15 19:35:26,557 WARN parse.ParseUtil - Unable to successfully parse content
似乎这个错误来自TikaConfig.java,因为我得到一个空的迭代器:
Iterator<Parser> iterator = ServiceRegistry.lookupProviders(
Parser.class, this.getClass().getClassLoader());
来自CYGWIN的相同PARSE调用成功,我从Service注册表中获取所有PARSERS。因此,解决方案可能是与Service registry.
相关的Eclipse配置Nutch-Eclipse配置良好的nutch-site.xml,parse-plugins.xml
我很感激任何想法来解决这个问题。
答案 0 :(得分:0)