Apache Tika排除了一些html标签

时间:2019-02-22 15:00:52

标签: python apache-tika

我正在通过python测试Apache Tika REST Api是否解析HTML文件。一切正常,只有一件事。 <noscript>标签的内部也被解析为文本,并且我的文本中包含一些CSS样式内容,这是不希望的。同样,<div style="display:none">的主体也被提取。是否可以在Tika rest API中将某些html标签列入黑名单?

1 个答案:

答案 0 :(得分:2)

我没有立即解决的方法,但是请求似乎合理,因此请在JIRA上打开一个问题,供团队讨论:https://issues.apache.org/jira/projects/TIKA/summary