Question

使用Storm Crawler 1.13。我正在使用以下配置进行文本提取。很少对其工作方式感到困惑。

   - MAIN[role="main"]
   - DIV[id="content--news"]
   - DIV[id="content--person"]
   - ARTICLE

无论何时搜寻器启动，爬虫都会检查配置中包含的所有标记，否则，如果找到第一个匹配项，它将跳过其余标记。

Answer 1

请参阅JAVADOC

如果未配置任何表达式或未找到匹配项，则使用第一个匹配的包含模式或整个文档。

code非常简单。