应用错误收集

分别使用Nutch中的每个插件

时间：2018-01-24 10:33:39

标签： plugins nutch extractor

我在 Nutch-1.15 中使用 extractor 插件。该插件使用解析数据。

插件在整体使用时工作正常。当对 custom-extractos.xml 文件进行一些更改时，会出现问题。

即使 custom-extractors.xml 文件中发生少量更改，也需要重新启动整个爬网过程。

有没有一种方法可以在解析数据上单独使用单个插件？

1 个答案:

答案 0 :(得分：0)

由于此插件是Parser过滤器，因此必须将其用作Parse步骤的一部分，并且不是独立的。

但是，你可以做很多事情。

如果您希望动态更改配置（仅影响新解析的文档），可以使用extractor.file属性指定HDFS上的任何位置，并根据需要替换此文件，它将是阅读每项任务。

如果您想要对以前解析的文档重新应用更改，答案取决于您的抓取细节，但您可以使用旧版块上的from django.conf.urls import url from . import views urlpatterns = [ url(r'^$', views.index, name='index'), url(r'^(?P<company_id>[0-9]+)/$', views.detail, name='detail'), url(r'^companylist/$', views.companies_by_x, name='companies_by_x'), ]再次运行解析步骤（您将需要删除段中现有的解析文件夹。）