Question

我当前的解决方案只是读取文件的所有字节，尝试解码，如果有任何异常，我会说这个文件没有正确编码。还有其他更优雅的方式吗？感谢。

sqoop merge --merge-key department_id \
  --new-data /user/cloudera/sqoop_merge/departments_delta \
  --onto /user/cloudera/sqoop_merge/departments \
  --target-dir /user/cloudera/sqoop_merge/departments_stage \
  --class-name departments \
  --jar-file

的问候，林

Answer 1

<强> No 即可。从那个答案：

无法正确检测编码。

（来自chardet常见问题：）


但是，某些编码针对特定语言进行了优化，语言不是随机的。一些字符序列一直弹出，而其他序列没有任何意义。一个英语流利的人打开一份报纸并发现“txzqJv 2！dasd0a QqdKjvz”会立刻意识到这不是英语（即使它完全由英文字母组成）。通过研究大量“典型”文本，计算机算法可以模拟这种流畅性，并对文本语言做出有根据的猜测。

但是，存在some libraries确实尽力尝试查找编码类型。

Python 2.7检查文件是否使用UTF-8编码

1 个答案: