Nutch-解析自定义HTML元素

时间:2018-11-24 13:09:53

标签: java solr nutch

我正在尝试对要爬网的页面的特定部分进行爬网和索引(使用Solr)。

到目前为止,使用所有默认配置,我正在爬网并为所需的页面建立索引,但是在Solr中,我只有2个字段,标题和内容,其中包含我的页面文本,但不完全是我所要的文本想要。

我想要实现的是拥有一个包含特定div内容的新字段。

<div class="myDiv"> Content I want to index </div>

到目前为止,我发现的是Extractor Plugin,这似乎是我想要的。

按照说明进行操作后,我无法解析数据,因为出现以下错误,并且我不明白出了什么问题。

我正在使用Nutch 1.15

java.lang.Exception: java.lang.LinkageError: loader constraint violation: when resolving method "org.slf4j.impl.StaticLoggerBinder.getLoggerFactory()Lorg/slf4j/ILoggerFactory;" the class loader (instance of org/apache/nutch/plugin/PluginClassLoader) of the current class, org/slf4j/LoggerFactory, and the class loader (instance of sun/misc/Launcher$AppClassLoader) for the method's defining class, org/slf4j/impl/StaticLoggerBinder, have different Class objects for the type org/slf4j/ILoggerFactory used in the signature
    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)

1 个答案:

答案 0 :(得分:0)

似乎slf4j-api使用的是旧版本,与Nutch使用的版本不匹配。至少这是我的理解。

要解决此问题,我只是在/plugins/extractor/plugin.xml

中注释掉了库

删除此行:<library name="slf4j-api-1.7.5.jar"/>