Question

我正在尝试将CSV文件的片段读入pandas DataFrame，当我将nrows设置为超过某一点时，我遇到了麻烦。我的CSV文件被拆分为具有不同标题/数据类型的不同段，因此我浏览了该文件并找到了不同段的行号，并保存了行号。当我尝试做的时候：

pd.io.parsers.read_csv('filename',skiprows=40, nrows=12646)

工作正常。更多行，它会引发错误：

CParserError: Error tokenizing data. C error: Expected 56 fields in line 13897, saw 71

确实13897行有那么多行，这就是我试图使用nrows和skiprows的原因。我可以找到熊猫会阅读的最后一行，它与其余部分看起来没什么不同。在十六进制编辑器中查看文件，我仍然看不出任何差异。

我还尝试了另一个CSV文件，我得到了类似的结果：

pd.io.parsers.read_csv('file2',skiprows=112, nrows=18524)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18188 entries, 0 to 18187

可是：

pd.io.parsers.read_csv('file2',skiprows=112, nrows=18525)

给出：

CParserError: Error tokenizing data. C error: Expected 56 fields in line 19190, saw 71

有什么我想念的吗？还有另一种方法吗？

我在Windows上使用pandas-0.10.1.win-amd64-py3.3，numpy-MKL-1.7.1rc1.win-amd64-py3.3和python-3.3.0.amd64。我在使用numpy-unoptimized-1.7.1rc1.win-amd64-py3.3时遇到了同样的问题。

Answer 1

您可以使用warn_bad_lines和error_bad_lines来关闭坏线错误＆amp;警告：

import pandas as pd
from StringIO import StringIO
data = StringIO("""a,b,c
1,2,3
4,5,6
6,7,8,9
1,2,5
3,4,5""")
pd.read_csv(data, warn_bad_lines=False, error_bad_lines=False)

使用pandas read_csv和nrows读取~13000行CSV文件的部分内容

1 个答案: