MarkLogic没有“处理”EPUB。 CPF没有。 MLCP没有。
EPUB是一个主要包含xhtml,xml和图片的zip。我可以将其重命名为.zip并使用MLCP加载它。但是重命名不是很好,它会显示在URI中,除非我为URI创建等添加替换等。
此外,.opf
文件包含有用信息,它是XML但读取为二进制文件。我可以将.OPF添加到MIME类型中,但这不能与使用MLCP从存档加载一起使用,然后它仍然会再次显示为Binary。
我讨厌在加载到ML之前添加额外的“准备”数据层。我希望尽可能保持信息的可读性/可索引性。
有没有更好的方法;重命名,解压缩和mime-typing以将EPUB文件加载到MarkLogic中?
答案 0 :(得分:3)
我想我个人会使用MLCP转换。您知道它是压缩数据,因此您可以安全地在变换中应用xdmp:zip-manifest
。您可以在转换中发出多个map:map对象,epub zip中的每个部分都带有uri / value。您可以使用选项告诉xdmp:zip-get
读取具有特定格式的特定文件。
HTH!
答案 1 :(得分:1)
您是要将.opf文件作为单个文档加载到数据库中,还是希望mlcp为您解压缩并将包含的XHTML,XML和图像文件作为单个文档插入数据库?
如果是后者,您可以使用-input_compression_codec选项实现它(不重命名源文件)。请参阅文档中的此主题: