是否有办法配置Apache Tikka,以便它只从文件中提取元数据属性,而不访问文件的内容。 ?我们需要一种方法来避免在较大的文件中读取整个内容。
我们正在使用的提取代码如下:
var tikaConfig = TikaConfig.getDefaultConfig();
var metadata = new Metadata();
AutoDetectParser parser = new AutoDetectParser(tikaConfig);
BodyContentHandler handler = new BodyContentHandler();
using (TikaInputStream stream = TikaInputStream.get(new File(filename), metadata))
{
parser.parse(stream, handler, metadata, new ParseContext());
Array metadataKeys = metadata.names();
Array.Sort(metadataKeys);
}
使用上面的代码示例,当我们尝试提取元数据时,即使正在读取内容。我们需要一种避免相同的方法。