Apache Tika - 在不阅读内容的情况下解析和提取元数据

时间:2016-06-15 02:55:35

标签: metadata apache-tika

是否有办法配置Apache Tikka,以便它只从文件中提取元数据属性,而不访问文件的内容。 ?我们需要一种方法来避免在较大的文件中读取整个内容。

我们正在使用的提取代码如下:

        var tikaConfig = TikaConfig.getDefaultConfig();
        var metadata = new Metadata();

        AutoDetectParser parser = new AutoDetectParser(tikaConfig);
        BodyContentHandler handler = new BodyContentHandler();

        using (TikaInputStream stream = TikaInputStream.get(new    File(filename), metadata))
        {
            parser.parse(stream, handler, metadata, new ParseContext());

            Array metadataKeys = metadata.names();
            Array.Sort(metadataKeys);
        }

使用上面的代码示例,当我们尝试提取元数据时,即使正在读取内容。我们需要一种避免相同的方法。

0 个答案:

没有答案