我想将PDF上传到MarkLogic数据库并在其上构建搜索引擎。 你能建议吗?
答案 0 :(得分:3)
这可以毫不费力地完成。实际上,它是预先制作的示例应用之一:http://developer.marklogic.com/code/document-discovery
该示例应用程序的技术堆栈自MarkLogic 8以来有点过时,但使用https://github.com/marklogic/marklogic-samplestack或https://github.com/marklogic/slush-marklogic-node使用更现代的堆栈重新创建它并不困难。
后者实际上带有一个示例转换,可以与/ v1 / documents上的PUT调用一起使用,以便从二进制文档(如PDF)中获取文本和元数据:
文档过滤支持许多二进制格式:http://docs.marklogic.com/guide/search-dev/binary-document-metadata#id_68368
HTH!