Tika在服务器模式下的表现

时间:2014-03-11 06:54:16

标签: java apache-tika

我读了一些文章,说服务器模式下的tika提高了性能。有人可以解释一下吗?我们可以在Java应用程序中实现类似的功能以获得更好的性能吗?

Running tika in server mode

2 个答案:

答案 0 :(得分:1)

在使用jar作为独立应用程序执行tika时提供的示例中,在实际处理pdf文件之前还有其他步骤。您可以粗略地将其拆分为3:

  1. JVM实例化
  2. 加载和配置Tika类(例如:解析器等......)
  3. (仅此时)tika执行内容处理
  4. 在服务器模式下,首先在服务器启动时执行两个步骤,并且可以在收到文件时对其进行处理。

    如果对应用程序执行某些输入数据处理,并且处理时间明显少于实例化和配置应用程序,则可以在应用程序中执行相同操作。

    关于实施,您可以查看tika source code

答案 1 :(得分:0)

我查看了TikaServer中的代码,只有Parser对象似乎被初始化了。此处不需要其他与​​Socket相关的代码。我尝试了代码只初始化Parser一次,但没有看到任何改进(用于提取100个文件的内容)。

按照vadchen的回答

  1. JVM初始化不是正在运行的应用程序的问题;无论如何它只会发生一次。
  2. Tika初始化Parser对象,这似乎对性能没有太大影响。
  3. 因此该文章声称没有任何性能提升。