如何将PDF元数据保存到AzureBlob

时间:2019-06-27 13:15:45

标签: java azure-blob-storage

在将文件上传到BLOB时如何保存原始PDF的元数据

我使用openOutPutStream将文件保存到Blob,并在读取文件时使用Tika解析内容,这为我提供了文件的元数据作为回报

Inputstream is = newBlobReference.openInputStream();    
BodyContentHandler handler = new BodyContentHandler(-1);
            Metadata metaData = new Metadata();
            ParseContext context = new ParseContext();
            PDFParser parser = new PDFParser();
            String content = "";
            parser.parse(is, handler, metaData, context);

只是为了获取少量的pdf元数据(Creation-Date / xmpTPg:NPages),我必须使用Tika解析文件。有没有一种方法可以在上传PDF时将元数据保存到BLOB

1 个答案:

答案 0 :(得分:0)

不幸的是,在上传过程中无法从azure blob存储中获取数据。当在Azure Blob存储中建立/创建Blob时,可以设置和检索元数据,有关此内容的更多信息,请参见 documentation ,还有其他替代方法,例如{{ 3}},这也要求Blob驻留在存储中。我的建议是使用您使用的方法,然后将该信息附加到一个单独的Blob中,以保留该元数据。