我们在Stormcrawler 1.13上遇到了一个奇怪的问题。在我们的某些(但不是全部)网站上,我们有一个<meta name="college" content="thiscollege"/>
标签,而SC的indexer.md.mapping
设置为- parse.college=college
。对于设置了该元标记的网站,这似乎可以正常工作。
我们遇到的问题是,如果将页面3.html,4.html和5.html的metatag设置为thiscollege1
,那么搜寻器将找到没有meta标签的page25.html。 ,看来 会重新使用5.html中meta标签的值thiscollege1
,然后将其填充到Elastic index中的college
字段中。
是否有一种设置方法,以便每次转到新页面时将其清零或取消设置该变量,以使该变量不会被继承?
任何有关如何调整此设置的建议将不胜感激!
追逐问题一直是个麻烦,因为某些记录似乎只包含随机条目。直到我将记录与某些状态记录(按NextFetchDate排序)进行匹配,我才发现它可能是一个结转变量。我将尝试仅用几页来设置一个特定的测试,以专门证明/反驳该理论,但是现在,这是唯一适合所发生情况的事情。
欢迎提出任何想法!
答案 0 :(得分:1)
仅当您在配置 metadata.transfer 的值中列出了 parse.college 时,这种情况才会发生。