熊猫`read_csv`中的UnicodeDecodeError

时间:2019-12-02 02:57:56

标签: pandas csv encoding character-encoding

我正在与Financial Statement and Notes Data Sets合作。以下代码在2010q3之前运行良好:

num = pd.read_csv('../zipdata/extracted/num.tsv', sep="\t", encoding="us-ascii", low_memory=False)

但是,该文件无法使用相同的代码(我将其保存在Google云端硬盘中):https://drive.google.com/file/d/1i4M_UIaDLeGmAYKr4jVD_Fp3JnvZWXUS/view?usp=sharing

我尝试使用file -I num.tsv检查编码。结果为num.tsv: text/plain; charset=us-ascii

我还发现列dimh为十六进制格式。所以,我也尝试过

num = pd.read_csv('../zipdata/extracted/num.tsv', sep="\t", encoding="us-ascii",low_memory=False, converters={"dimh": lambda x: int(x, 16)})

任何人都可以帮助解决这个问题吗?

0 个答案:

没有答案