为什么Tika将纯文本解析为octet / stream

时间:2017-01-12 15:01:19

标签: apache-tika

除了其他文件,我有大量的UNIX file命令所说的文件:“ASCII文本”,但Tika坚持认为它是“application / octet-stream”并且不解析它。我天真地使用

Tika tika = new Tika();
String text = tika.parseToString(inStream)

somehow related questions的某些答案指向AutoDetectParser,但1.13版本中的默认设置恰好使用了该字符。

有没有办法帮助Tika这样,如果文件中有很多ascii,那么决定“text / plain”会更加勇敢?

0 个答案:

没有答案