在Marklogic上载PDF

时间:2015-05-28 05:19:55

标签: pdf marklogic

我想将PDF上传到MarkLogic数据库并在其上构建搜索引擎。 你能建议吗?

1 个答案:

答案 0 :(得分:3)

这可以毫不费力地完成。实际上,它是预先制作的示例应用之一:http://developer.marklogic.com/code/document-discovery

该示例应用程序的技术堆栈自MarkLogic 8以来有点过时,但使用https://github.com/marklogic/marklogic-samplestackhttps://github.com/marklogic/slush-marklogic-node使用更现代的堆栈重新创建它并不困难。

后者实际上带有一个示例转换,可以与/ v1 / documents上的PUT调用一起使用,以便从二进制文档(如PDF)中获取文本和元数据:

https://github.com/marklogic/slush-marklogic-node/blob/master/app/templates/rest-api/transforms/filter-docs.xqy

文档过滤支持许多二进制格式:http://docs.marklogic.com/guide/search-dev/binary-document-metadata#id_68368

HTH!