如何在Drupal 8中索引pdf文件以进行搜索。 Apache Solr或ElasticSearch

时间:2018-08-07 19:57:05

标签: file elasticsearch indexing solr drupal-8

我正在尝试为一个网站添加搜索功能,该网站可以搜索文章,页面和文件附件(pdf,word,excel ..)中的文本

我正在使用drupal8。尝试了Elastic搜索和Apache Solr。使用的搜索API模块。仅为文件的元数据创建索引,而不为文件内容创建索引。 使用Apache Solr解决方案,我可以看到创建的索引。这些没有文件内容。只是文件名,用户,类型...。 还为文章和页面创建索引。 我可以搜索文章(标题和内容),页面(标题和内容)和文件(仅标题),而没有文件内容。

我尝试过的另一个解决方案是使用“搜索文件附件”模块。给了Apache Tika jar路径,它确实提取了文本内容并将其编入索引(不确定该数据保存在哪里。可能是DB。不确定)。当我搜索时,我必须指定类型作为文件来获取结果。这是不可接受的,因为我不能期望最终用户指定类型。搜索应返回所有结果...

任何对搜索文件附件(任何模块...或进行Apache solr或elasticSearch配置的方法)的解决方案都将受到赞赏...

环境:Ubuntu,Php 7.2,MySql,Drupal 8,Apache Solr 7.4或ElasticSearch6。

0 个答案:

没有答案