在将文件上传到BLOB时如何保存原始PDF的元数据
我使用openOutPutStream将文件保存到Blob,并在读取文件时使用Tika解析内容,这为我提供了文件的元数据作为回报
Inputstream is = newBlobReference.openInputStream();
BodyContentHandler handler = new BodyContentHandler(-1);
Metadata metaData = new Metadata();
ParseContext context = new ParseContext();
PDFParser parser = new PDFParser();
String content = "";
parser.parse(is, handler, metaData, context);
只是为了获取少量的pdf元数据(Creation-Date / xmpTPg:NPages),我必须使用Tika解析文件。有没有一种方法可以在上传PDF时将元数据保存到BLOB
答案 0 :(得分:0)
不幸的是,在上传过程中无法从azure blob存储中获取数据。当在Azure Blob存储中建立/创建Blob时,可以设置和检索元数据,有关此内容的更多信息,请参见 documentation ,还有其他替代方法,例如{{ 3}},这也要求Blob驻留在存储中。我的建议是使用您使用的方法,然后将该信息附加到一个单独的Blob中,以保留该元数据。