文本提取行为令人困惑

时间:2019-03-04 16:27:15

标签: web-crawler stormcrawler

使用Storm Crawler 1.13。我正在使用以下配置进行文本提取。很少对其工作方式感到困惑。

   - MAIN[role="main"]
   - DIV[id="content--news"]
   - DIV[id="content--person"]
   - ARTICLE

无论何时搜寻器启动,爬虫都会检查配置中包含的所有标记,否则,如果找到第一个匹配项,它将跳过其余标记。

1 个答案:

答案 0 :(得分:0)

请参阅JAVADOC

  

如果未配置任何表达式或未找到匹配项,则使用第一个匹配的包含模式或整个文档。

code非常简单。