Question

使用Storm Crawler 1.13和Elastic Search 6.5.2。在文本提取中，我应用了 MAIN 标签，该标签用于维护网页的主要内容。不幸的是，当我仅添加 MAIN 时，它会捕获包括标题的整个网页内容。

无法正常工作：

 textextractor.include.pattern:
  - MAIN[role="main"]

但是，如果我在 MAIN 下添加其他标签，它会捕获我期望的实际内容。

工作：

  textextractor.include.pattern:
   - MAIN[role="main"]
   - DIV[id="content--primary"]
   - DIV[id="content--secondary"]

任何解决方案，如果我想在 MAIN 标签之间获取所有内容。我有很多网站的 DIV 类和id有所不同，并且有点复杂，无法提及每个标签，而且每个页面 MAIN 标签所保存的所有网站都有一个共同点。实际内容。

先谢谢您。

已更新：回购中的文件更改

Answer 1

您发布的文件包含无效元素：

<main rolle="main class>

和

<main role="main class="mobile-menu-fixed">

如果属性名称拼写错误和/或缺少双引号，您将无法期望模式匹配。