nutch-site.xml文件的plugin-includes头下的“parse-(type1 | type2)”的含义

时间:2012-09-06 17:11:16

标签: nutch

nutch-site.xml的{​​{1}}标题下,当我写plugin-includes时,它是什么意思?

这是否意味着nutch正在获取每个url,nutch首先使用parse-(type1|type2) 1解析器解析内容,然后依次调用type解析器?

1 个答案:

答案 0 :(得分:1)

你的假设是正确的。这是它的工作原理。但请记住,每个插件都可以分配一定的内容类型或一组内容类型。例如,parse-pdf插件不会解析msword文档。