Question

我正在尝试使用apache tika解析文本文件。我将文件传递给以下代码：

public String parseFile(File file) throws Exception{
        Parser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        ParseContext parseContext = new ParseContext();

        BodyContentHandler handler =  new BodyContentHandler(1000000000);
        FileInputStream is = new FileInputStream(file);
        parser.parse(is, handler, metadata, parseContext);
        System.out.println("Content: "+ handler.toString());
        return handler.toString();
}

我的问题是Tika识别SOME文件但不识别所有文件。对不起，但是我无法正常附加不起作用的文件（公司原因）。如果我找到一个可以接受的例子，我将分享它。我想知道是否有一些明显我做错的事情。我不确定BodyContentHandler类是如何工作的。在我在线阅读的大多数教程中，代码如下：

ContentHandler handler = new BodyContentHandler ();

然而，我的日食拒绝接受。并要求我将BodyContentHandler强制转换为ContentHandler，这会导致其他问题。

我正在尝试支持文本文件，pdf文件，word文档，excel文件。不起作用的文本文件具有某种属性：我将电子邮件线程从outlook粘贴到记事本。大多数不起作用的文件属于这种类型。

无法使用tika读取文本文件

0 个答案: