无法使用tika读取文本文件

时间:2013-10-01 15:46:03

标签: apache-tika

我正在尝试使用apache tika解析文本文件。我将文件传递给以下代码:

public String parseFile(File file) throws Exception{
        Parser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        ParseContext parseContext = new ParseContext();

        BodyContentHandler handler =  new BodyContentHandler(1000000000);
        FileInputStream is = new FileInputStream(file);
        parser.parse(is, handler, metadata, parseContext);
        System.out.println("Content: "+ handler.toString());
        return handler.toString();
}

我的问题是Tika识别SOME文件但不识别所有文件。对不起,但是我无法正常附加不起作用的文件(公司原因)。如果我找到一个可以接受的例子,我将分享它。我想知道是否有一些明显我做错的事情。我不确定BodyContentHandler类是如何工作的。在我在线阅读的大多数教程中,代码如下:

ContentHandler handler = new BodyContentHandler ();

然而,我的日食拒绝接受。并要求我将BodyContentHandler强制转换为ContentHandler,这会导致其他问题。

我正在尝试支持文本文件,pdf文件,word文档,excel文件。不起作用的文本文件具有某种属性:我将电子邮件线程从outlook粘贴到记事本。大多数不起作用的文件属于这种类型。

0 个答案:

没有答案