apache-solr apache-tika索引文档。速度慢

时间:2015-07-08 08:31:51

标签: apache solr amazon-ec2 apache-tika

我有4GB内存。 在3GB内存上运行solr。

我使用apache-tika服务器(tika-server.jar)提取文本和元数据。

文件比平常花费更长的时间。 20 MB文件需要2到3分钟。

我的服务器托管在亚马逊云上。运行ubuntu 14.04。

我在本地计算机上对此进行了测试,它会在1-2秒内从同一文件中提取数据。

是否需要亚马逊云实例的特殊配置。我的本地机器也有4GB内存,但它是一个MAC OS。

我正在使用tika-python索引我的文档。

我有大约100万份不同文件格式的文件(pdf,htlm,doc,ppt,xml,txt)

请为Apache-Tika建议补救措施或替代解决方案。

感谢

我的系统安装了没有libre办公室的ubuntu。

仅对.doc文件进行慢速索引。

是否有任何其他解决方案可以解析MS Office文件(doc,docx等)中的全文和元数据。这将提供更好的速度。

0 个答案:

没有答案