我当前的解决方案只是读取文件的所有字节,尝试解码,如果有任何异常,我会说这个文件没有正确编码。还有其他更优雅的方式吗?感谢。
sqoop merge --merge-key department_id \
--new-data /user/cloudera/sqoop_merge/departments_delta \
--onto /user/cloudera/sqoop_merge/departments \
--target-dir /user/cloudera/sqoop_merge/departments_stage \
--class-name departments \
--jar-file
的问候, 林
答案 0 :(得分:1)
<强> No 即可。从那个答案:
无法正确检测编码。
(来自chardet常见问题:)
但是,某些编码针对特定语言进行了优化,语言不是随机的。一些字符序列一直弹出,而其他序列没有任何意义。一个英语流利的人打开一份报纸并发现“txzqJv 2!dasd0a QqdKjvz”会立刻意识到这不是英语(即使它完全由英文字母组成)。通过研究大量“典型”文本,计算机算法可以模拟这种流畅性,并对文本语言做出有根据的猜测。
但是,存在some libraries确实尽力尝试查找编码类型。