读取.idx文件

时间:2015-07-16 20:57:50

标签: python csv pandas

我试图读取大小约为1.89Gb的.idx文件。如果我写:

  

indexfile = pd.read_table(" C:\ Edgar Zip files \ 2001 \ company.idx")

我得到的输出为:

  • 公司名称表格类型CIK日期归档文件名
  • 0 033 ASSET MANAGEMENT LLC / ...
  • 1 033 ASSET MANAGEMENT LLC / ...
  • 2 1 800 CONTACTS INC ...
  • 3 1 800 CONTACTS INC ...
  • 4 1 800 FLOWERS COM INC ...

所有列在一列中合并在一起

如果我这样做:

  

indexfile = pd.read_table(" C:\ Edgar Zip files \ 2001 \ company.idx",sep ="")

我收到错误:

  

CParserError:标记数据时出错。 C错误:第4行预计有69个字段,见72

我可以使用:

  

indexfile = pd.read_table(" C:\ Edgar Zip files \ 2001 \ company.idx",error_bad_lines = False)

但这只会删除我的大部分数据。

有解决方法吗?

PS:链接到示例.idf文件SEC EDGAR。下载company.idx文件。

1 个答案:

答案 0 :(得分:0)

您的列条目中也包含空格。所以使用2个空格作为分隔符。

indexfile=pd.read_table("C:\Edgar Zip files\2001\company.idx",sep="  ")