我有4GB内存。 在3GB内存上运行solr。
我使用apache-tika服务器(tika-server.jar)提取文本和元数据。
文件比平常花费更长的时间。 20 MB文件需要2到3分钟。
我的服务器托管在亚马逊云上。运行ubuntu 14.04。
我在本地计算机上对此进行了测试,它会在1-2秒内从同一文件中提取数据。
是否需要亚马逊云实例的特殊配置。我的本地机器也有4GB内存,但它是一个MAC OS。
我正在使用tika-python索引我的文档。
我有大约100万份不同文件格式的文件(pdf,htlm,doc,ppt,xml,txt)
请为Apache-Tika建议补救措施或替代解决方案。
感谢
我的系统安装了没有libre办公室的ubuntu。
仅对.doc文件进行慢速索引。
是否有任何其他解决方案可以解析MS Office文件(doc,docx等)中的全文和元数据。这将提供更好的速度。