标签: elasticsearch mediawiki
目标是索引上传的文件并在其中搜索文字。
当前设置:
在wiki页面和上传文件中使用Elasticsearch进行搜索工作正常。但是,如何在上传的文件(pdf,doc,...)中索引和搜索文本,我该怎么办?
答案 0 :(得分:0)
您需要一个可以提取文本的媒体处理程序;见MediaHandler::getEntireText。对于PDF PdfHandler这样做;我想也存在其他常见格式的扩展。
答案 1 :(得分:0)
我使用了这个plugin。它的一个缺点是它使用了太多空间,所以后来在我的项目中我们迁移到使用mapper插件使用的tika(.net端口版本)。