我得到了一些"检测到拉链炸弹!"我们的一些大型HTML文件(以前从PDF转换过)的例外情况,它们是合法文件,同时尝试使用Solr索引它们。我想增加炸弹检测的限制或禁用它,因为只有可信用户的子集才能向系统输入某些众所周知的文档。
Solr文档声明可以向其提供Tika配置文件,但我无法在Tika文档中找到如何设置SecureContentHandler的输出阈值或者可能替换此处理程序与另一个不防止拉链炸弹......
如何在Tika配置文件中指定此类更改?
答案 0 :(得分:1)
这似乎是由Solr本身在某些时候的回归引起的。我创建的这张票的更多细节,由Tim Allison调查:
https://issues.apache.org/jira/browse/TIKA-2091
我最终通过使用Nokogiri(Nokogiri :: HTML(html_content).text)直接从我的Ruby应用程序中提取HTML文档中的文本来取代Tika。如果这会影响您并且您希望在Solr中修复它,请在Solr项目中创建一个票证。