我正在通过python测试Apache Tika REST Api是否解析HTML文件。一切正常,只有一件事。 <noscript>
标签的内部也被解析为文本,并且我的文本中包含一些CSS样式内容,这是不希望的。同样,<div style="display:none">
的主体也被提取。是否可以在Tika rest API中将某些html标签列入黑名单?
答案 0 :(得分:2)
我没有立即解决的方法,但是请求似乎合理,因此请在JIRA上打开一个问题,供团队讨论:https://issues.apache.org/jira/projects/TIKA/summary