除了其他文件,我有大量的UNIX file
命令所说的文件:“ASCII文本”,但Tika坚持认为它是“application / octet-stream”并且不解析它。我天真地使用
Tika tika = new Tika();
String text = tika.parseToString(inStream)
somehow related questions的某些答案指向AutoDetectParser
,但1.13版本中的默认设置恰好使用了该字符。
有没有办法帮助Tika这样,如果文件中有很多ascii,那么决定“text / plain”会更加勇敢?