我是学生,我想找一个大数据的搜索引擎。我找到了MarkLogic Server,但我不知道它支持哪些文件类型。它是否支持doc,docx,pdf,xml,ppt,pptx等?支持哪些其他类型?
答案 0 :(得分:3)
在低级别,MarkLogic支持xml,纯文本和二进制文件的存储。 XML是完全可搜索的,包括分面搜索的范围索引。文本只能全文搜索。二进制文件不是可搜索的,但是有一些工具可以提取元信息,并提供许多二进制格式的文本。您可以在在线文档中找到有关后者的更多详细信息:
http://docs.marklogic.com/guide/search-dev/binary-document-metadata#chapter
有一个示例应用程序显示此功能:
http://developer.marklogic.com/code/document-discovery
HTH!