使用Storm Crawler 1.13和Elastic Search 6.5.2。在文本提取中,我应用了 MAIN 标签,该标签用于维护网页的主要内容。不幸的是,当我仅添加 MAIN 时,它会捕获包括标题的整个网页内容。
无法正常工作:
textextractor.include.pattern:
- MAIN[role="main"]
但是,如果我在 MAIN 下添加其他标签,它会捕获我期望的实际内容。
工作:
textextractor.include.pattern:
- MAIN[role="main"]
- DIV[id="content--primary"]
- DIV[id="content--secondary"]
任何解决方案,如果我想在 MAIN 标签之间获取所有内容。我有很多网站的 DIV 类和id有所不同,并且有点复杂,无法提及每个标签,而且每个页面 MAIN 标签所保存的所有网站都有一个共同点。实际内容。
先谢谢您。
已更新:回购中的文件更改
答案 0 :(得分:0)
您发布的文件包含无效元素:
<main rolle="main class>
和
<main role="main class="mobile-menu-fixed">
如果属性名称拼写错误和/或缺少双引号,您将无法期望模式匹配。