stormcrawler:indexer.md.mapping-如果元数据标记不存在会发生什么?

时间:2019-06-06 01:15:07

标签: elasticsearch stormcrawler

我们在Stormcrawler 1.13上遇到了一个奇怪的问题。在我们的某些(但不是全部)网站上,我们有一个<meta name="college" content="thiscollege"/>标签,而SC的indexer.md.mapping设置为- parse.college=college。对于设置了该元标记的网站,这似乎可以正常工作。

我们遇到的问题是,如果将页面3.html,4.html和5.html的metatag设置为thiscollege1,那么搜寻器将找到没有meta标签的page25.html。 ,看来 会重新使用5.html中meta标签的值thiscollege1,然后将其填充到Elastic index中的college字段中。

是否有一种设置方法,以便每次转到新页面时将其清零或取消设置该变量,以使该变量不会被继承?

任何有关如何调整此设置的建议将不胜感激!

追逐问题一直是个麻烦,因为某些记录似乎只包含随机条目。直到我将记录与某些状态记录(按NextFetchDate排序)进行匹配,我才发现它可能是一个结转变量。我将尝试仅用几页来设置一个特定的测试,以专门证明/反驳该理论,但是现在,这是唯一适合所发生情况的事情。

欢迎提出任何想法!

1 个答案:

答案 0 :(得分:1)

仅当您在配置 metadata.transfer 的值中列出了 parse.college 时,这种情况才会发生。