标签: web-crawler stormcrawler
使用Storm Crawler 1.13。我正在使用以下配置进行文本提取。很少对其工作方式感到困惑。
- MAIN[role="main"] - DIV[id="content--news"] - DIV[id="content--person"] - ARTICLE
无论何时搜寻器启动,爬虫都会检查配置中包含的所有标记,否则,如果找到第一个匹配项,它将跳过其余标记。
答案 0 :(得分:0)
请参阅JAVADOC
如果未配置任何表达式或未找到匹配项,则使用第一个匹配的包含模式或整个文档。
code非常简单。