我需要知道配置Apache Tika的方法。
现在我们正在使用它来解析我们的html文件,然后根据从Apache Tika解析器获得的解析数据进行搜索。
问题: Apache tika实际上合并了来自不同div的数据,并且不包括它们之间的空间。
例如:如果我们有下面的div:
<div1>Girish</div><div>Kumar</div>
解析后的内容看起来像
GirishKumar
但我希望它为
Girish(太空)库马尔
如何配置Apache tika,以便在每个div之后它包含一个空格??
现在我们已在我们的某个服务器中安装了 Apache Tika Jar 并拨打电话以获取回复。