Question

我试图读取大小约为1.89Gb的.idx文件。如果我写：

indexfile = pd.read_table（＆＃34; C：\ Edgar Zip files \ 2001 \ company.idx＆＃34;）

我得到的输出为：

所有列在一列中合并在一起

如果我这样做：

indexfile = pd.read_table（＆＃34; C：\ Edgar Zip files \ 2001 \ company.idx＆＃34;，sep =＆＃34;＆＃34;）

我收到错误：

CParserError：标记数据时出错。 C错误：第4行预计有69个字段，见72

我可以使用：

indexfile = pd.read_table（＆＃34; C：\ Edgar Zip files \ 2001 \ company.idx＆＃34;，error_bad_lines = False）

但这只会删除我的大部分数据。

有解决方法吗？

PS：链接到示例.idf文件SEC EDGAR。下载company.idx文件。

Answer 1

您的列条目中也包含空格。所以使用2个空格作为分隔符。

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",sep="  ")