EPUB装载MLCP

时间:2016-09-13 07:30:18

标签: marklogic epub mlcp

MarkLogic没有“处理”EPUB。 CPF没有。 MLCP没有。

EPUB是一个主要包含xhtml,xml和图片的zip。我可以将其重命名为.zip并使用MLCP加载它。但是重命名不是很好,它会显示在URI中,除非我为URI创建等添加替换等。

此外,.opf文件包含有用信息,它是XML但读取为二进制文件。我可以将.OPF添加到MIME类型中,但这不能与使用MLCP从存档加载一起使用,然后它仍然会再次显示为Binary。

我讨厌在加载到ML之前添加额外的“准备”数据层。我希望尽可能保持信息的可读性/可索引性。

有没有更好的方法;重命名,解压缩和mime-typing以将EPUB文件加载到MarkLogic中?

2 个答案:

答案 0 :(得分:3)

我想我个人会使用MLCP转换。您知道它是压缩数据,因此您可以安全地在变换中应用xdmp:zip-manifest。您可以在转换中发出多个map:map对象,epub zip中的每个部分都带有uri / value。您可以使用选项告诉xdmp:zip-get读取具有特定格式的特定文件。

HTH!

答案 1 :(得分:1)

您是要将.opf文件作为单个文档加载到数据库中,还是希望mlcp为您解压缩并将包含的XHTML,XML和图像文件作为单个文档插入数据库?

如果是后者,您可以使用-input_compression_codec选项实现它(不重命名源文件)。请参阅文档中的此主题:

http://docs.marklogic.com/guide/mlcp/import#id_13251