如何上传/索引富文本/结构化文本文档以使用ElasticSearch进行搜索?

时间:2014-06-11 17:44:41

标签: solr indexing elasticsearch information-retrieval structured-data

我正在围绕一系列文档构建搜索引擎,包括Microsoft Word文档,PowerPoints,PDF和文本文件。我已经成功下载并安装了ElasticSearch并使其运行(从命令提示符和浏览器 - localhost:9200可见)。

我可以上传和搜索手动输入的数据(可在网上找到几个教程 - 例如:http://www.elasticsearchtutorial.com/elasticsearch-in-5-minutes.html#Indexing

现在我需要从搜索手动输入的数据到搜索结构化文本文件的大型语料库(大?)跳转。我的问题是 - 我如何上传/索引这些文档,以使它们可用于我已经运行的Elasticsearch实例。

我知道这可能太大而无法在单个回复中回答 - 即使指向工具或教程链接也会有所帮助。

版本:Windows 7,Elasticsearch 1.2.1

1 个答案:

答案 0 :(得分:3)

我会尝试使用Elasticsearch附件插件:

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping-attachment-type.html https://github.com/elasticsearch/elasticsearch-mapper-attachments

  

附件类型

     

附件类型允许索引不同的“附件”类型字段   (编码为base64),例如,Microsoft Office格式,打开   文档格式,ePub,HTML等(完整列表可以在这里找到)。

     

附件类型作为插件扩展提供。该插件是一个   简单的zip文件,可以下载和下载   $ ES_HOME / plugins位置。它会被自动检测到   附件类型将被添加。

它是使用Apache Tika构建的,并支持以下文件格式:

  

支持的文档格式

     
      
  • 超文本标记语言
  •   
  • XML和派生格式
  •   
  • Microsoft Office文档格式
  •   
  • OpenDocument格式
  •   
  • 可移植文档格式
  •   
  • 电子出版物格式
  •   
  • 富文本格式
  •   
  • 压缩和包装格式
  •   
  • 文字格式
  •   
  • 音频格式
  •   
  • 图片格式
  •   
  • 视频格式
  •   
  • Java类文件和档案
  •   
  • mbox格式
  •   

http://tika.apache.org/0.10/formats.html

它是作为插件提供的 - 如果您不熟悉插件架构,我会在这里看看:

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-plugins.html