如何在不使用数据库的情况下将自定义元数据包含在文件中,以后再使用 Apache Tika 进行提取。文件扩展名为* .doc .docx .pdf .txt .... *
答案 0 :(得分:0)
这可以使用PDFBox进行修改
这是github上的示例,其说明在介质上
https://github.com/enisinanaj/pdfbox-metadata-example
只需添加Main方法并调用insertMetadata()
设置服装元数据使用
info.setCustomMetadataValue("ispublished", "true");