应用错误收集

我有4GB内存。在3GB内存上运行solr。

我使用apache-tika服务器（tika-server.jar）提取文本和元数据。

文件比平常花费更长的时间。 20 MB文件需要2到3分钟。

我的服务器托管在亚马逊云上。运行ubuntu 14.04。

我在本地计算机上对此进行了测试，它会在1-2秒内从同一文件中提取数据。

是否需要亚马逊云实例的特殊配置。我的本地机器也有4GB内存，但它是一个MAC OS。

我正在使用tika-python索引我的文档。

我有大约100万份不同文件格式的文件（pdf，htlm，doc，ppt，xml，txt）

请为Apache-Tika建议补救措施或替代解决方案。

感谢

我的系统安装了没有libre办公室的ubuntu。

仅对.doc文件进行慢速索引。

是否有任何其他解决方案可以解析MS Office文件（doc，docx等）中的全文和元数据。这将提供更好的速度。