标签: elasticsearch solr lucene apache-tika manifoldcf
我有兴趣构建一个软件系统,该系统将连接到各种文档源,从每个源中包含的文档中提取内容,并将提取的内容提供给搜索引擎,如Elastic或Solr。此搜索引擎将作为基于Web的搜索应用程序的后端。
我有兴趣在知名类型的搜索结果中呈现这些文档的片段,例如Microsoft Word和PDF。如何在搜索中实现文档片段呈现?
我很乐意以任何格式提供这些代码段,包括图片。我只是希望能够为我的用户提供针对众所周知类型的结果的格式化预览。
谢谢!