MediaWiki - 在上传的文件中搜索文本

时间:2016-09-07 10:51:02

标签: elasticsearch mediawiki

目标是索引上传的文件并在其中搜索文字。

当前设置:

  • MediaWiki 1.27
  • PostgreSQL 9.4
  • Elasticsearch 1.7.5
  • MW-Extension CirrusSearch 1.27
  • MW-Extension Elastica(master)

在wiki页面和上传文件中使用Elasticsearch进行搜索工作正常。但是,如何在上传的文件(pdf,doc,...)中索引和搜索文本,我该怎么办?

2 个答案:

答案 0 :(得分:0)

您需要一个可以提取文本的媒体处理程序;见MediaHandler::getEntireText。对于PDF PdfHandler这样做;我想也存在其他常见格式的扩展。

答案 1 :(得分:0)

我使用了这个plugin。它的一个缺点是它使用了太多空间,所以后来在我的项目中我们迁移到使用mapper插件使用的tika(.net端口版本)。