文字提取不适用

时间:2019-02-05 22:29:09

标签: web-crawler stormcrawler

使用Storm Crawler 1.13和Elastic Search 6.5.2。在文本提取中,我应用了 MAIN 标签,该标签用于维护网页的主要内容。不幸的是,当我仅添加 MAIN 时,它会捕获包括标题的整个网页内容。

无法正常工作:

 textextractor.include.pattern:
  - MAIN[role="main"]

但是,如果我在 MAIN 下添加其他标签,它会捕获我期望的实际内容。

工作:

  textextractor.include.pattern:
   - MAIN[role="main"]
   - DIV[id="content--primary"]
   - DIV[id="content--secondary"]

任何解决方案,如果我想在 MAIN 标签之间获取所有内容。我有很多网站的 DIV 类和id有所不同,并且有点复杂,无法提及每个标签,而且每个页面 MAIN 标签所保存的所有网站都有一个共同点。实际内容。

先谢谢您。

已更新:回购中的文件更改

1 个答案:

答案 0 :(得分:0)

您发布的文件包含无效元素:

<main rolle="main class>

<main role="main class="mobile-menu-fixed">

如果属性名称拼写错误和/或缺少双引号,您将无法期望模式匹配。