Python 2.7检查文件是否使用UTF-8编码

时间:2016-08-06 23:05:37

标签: python python-2.7 utf-8

我当前的解决方案只是读取文件的所有字节,尝试解码,如果有任何异常,我会说这个文件没有正确编码。还有其他更优雅的方式吗?感谢。

sqoop merge --merge-key department_id \
  --new-data /user/cloudera/sqoop_merge/departments_delta \
  --onto /user/cloudera/sqoop_merge/departments \
  --target-dir /user/cloudera/sqoop_merge/departments_stage \
  --class-name departments \
  --jar-file 

的问候, 林

1 个答案:

答案 0 :(得分:1)

<强> No 即可。从那个答案:

  

无法正确检测编码。

     

(来自chardet常见问题:)

     
    

但是,某些编码针对特定语言进行了优化,语言不是随机的。一些字符序列一直弹出,而其他序列没有任何意义。一个英语流利的人打开一份报纸并发现“txzqJv 2!dasd0a QqdKjvz”会立刻意识到这不是英语(即使它完全由英文字母组成)。通过研究大量“典型”文本,计算机算法可以模拟这种流畅性,并对文本语言做出有根据的猜测。

  

但是,存在some libraries确实尽力尝试查找编码类型。