我正在与Financial Statement and Notes Data Sets合作。以下代码在2010q3之前运行良好:
num = pd.read_csv('../zipdata/extracted/num.tsv', sep="\t", encoding="us-ascii", low_memory=False)
但是,该文件无法使用相同的代码(我将其保存在Google云端硬盘中):https://drive.google.com/file/d/1i4M_UIaDLeGmAYKr4jVD_Fp3JnvZWXUS/view?usp=sharing
我尝试使用file -I num.tsv
检查编码。结果为num.tsv: text/plain; charset=us-ascii
。
我还发现列dimh
为十六进制格式。所以,我也尝试过
num = pd.read_csv('../zipdata/extracted/num.tsv', sep="\t", encoding="us-ascii",low_memory=False, converters={"dimh": lambda x: int(x, 16)})
任何人都可以帮助解决这个问题吗?