分别使用Nutch中的每个插件

时间:2018-01-24 10:33:39

标签: plugins nutch extractor

我在 Nutch-1.15 中使用 extractor 插件。该插件使用解析数据

插件在整体使用时工作正常。当对 custom-extractos.xml 文件进行一些更改时,会出现问题。

即使 custom-extractors.xml 文件中发生少量更改,也需要重新启动整个爬网过程。

有没有一种方法可以在解析数据上单独使用单个插件?

1 个答案:

答案 0 :(得分:0)

由于此插件是Parser过滤器,因此必须将其用作Parse步骤的一部分,并且不是独立的。

但是,你可以做很多事情。

如果您希望动态更改配置(仅影响新解析的文档),可以使用extractor.file属性指定HDFS上的任何位置,并根据需要替换此文件,它将是阅读每项任务。

如果您想要对以前解析的文档重新应用更改,答案取决于您的抓取细节,但您可以使用旧版块上的from django.conf.urls import url from . import views urlpatterns = [ url(r'^$', views.index, name='index'), url(r'^(?P<company_id>[0-9]+)/$', views.detail, name='detail'), url(r'^companylist/$', views.companies_by_x, name='companies_by_x'), ] 再次运行解析步骤(您将需要删除段中现有的解析文件夹。)