我正在读取一个类路径资源的文件:
URL dictionary = Main.class.getResource("/british-english.txt");
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(dictionary.openStream(), StandardCharsets.UTF_8));
List<String> lines = bufferedReader.lines().collect(Collectors.toList());
我应该如何处理使用不同字符集编码文件的情况,比如UTF_16?有没有办法检测到这一点,除了查看字符串列表,看看它们是否是英文单词?
答案 0 :(得分:0)
https://tika.apache.org/0.8/api/org/apache/tika/parser/txt/CharsetDetector.html。 请尝试使用apache tika api在提供的输入上进行字符集检测。