我在 Nutch-1.15 中使用 extractor 插件。该插件使用解析数据。
插件在整体使用时工作正常。当对 custom-extractos.xml 文件进行一些更改时,会出现问题。
即使 custom-extractors.xml 文件中发生少量更改,也需要重新启动整个爬网过程。
有没有一种方法可以在解析数据上单独使用单个插件?
答案 0 :(得分:0)
由于此插件是Parser过滤器,因此必须将其用作Parse步骤的一部分,并且不是独立的。
但是,你可以做很多事情。
如果您希望动态更改配置(仅影响新解析的文档),可以使用extractor.file属性指定HDFS上的任何位置,并根据需要替换此文件,它将是阅读每项任务。
如果您想要对以前解析的文档重新应用更改,答案取决于您的抓取细节,但您可以使用旧版块上的from django.conf.urls import url
from . import views
urlpatterns = [
url(r'^$', views.index, name='index'),
url(r'^(?P<company_id>[0-9]+)/$', views.detail, name='detail'),
url(r'^companylist/$', views.companies_by_x, name='companies_by_x'),
]
再次运行解析步骤(您将需要删除段中现有的解析文件夹。)