我正在尝试使用apache tika解析文本文件。我将文件传递给以下代码:
public String parseFile(File file) throws Exception{
Parser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
ParseContext parseContext = new ParseContext();
BodyContentHandler handler = new BodyContentHandler(1000000000);
FileInputStream is = new FileInputStream(file);
parser.parse(is, handler, metadata, parseContext);
System.out.println("Content: "+ handler.toString());
return handler.toString();
}
我的问题是Tika识别SOME文件但不识别所有文件。对不起,但是我无法正常附加不起作用的文件(公司原因)。如果我找到一个可以接受的例子,我将分享它。我想知道是否有一些明显我做错的事情。我不确定BodyContentHandler类是如何工作的。在我在线阅读的大多数教程中,代码如下:
ContentHandler handler = new BodyContentHandler ();
然而,我的日食拒绝接受。并要求我将BodyContentHandler强制转换为ContentHandler,这会导致其他问题。
我正在尝试支持文本文件,pdf文件,word文档,excel文件。不起作用的文本文件具有某种属性:我将电子邮件线程从outlook粘贴到记事本。大多数不起作用的文件属于这种类型。