Question

我有一个csv文件，我称之为test.csv。它由分隔。为了检查它的正确性，我使用awk 'NR==**' test.csv | wc -w表示不同的**值，并确保它按预期排列了2595列。

它有一个标题行。我使用以下代码将csv加载为numpy数组：

 a = np.genfromtxt("test.csv", skip_header=1, delimiter=' ')
 a.shape
(3367, 2595)

它使用2595列正确加载文件。

当我使用以下代码加载pandas时，它使用错误的列数加载了文件。

test = pd.read_csv("test.csv", sep=' ')
test.shape
(3367, 2539)

然后我使用了delim_whitespace=True而不是sep=' '，它仍然给出了相同的结果。

最后，我使用index_col=False并抛出IndexError: list index out of range。

这是熊猫中的错误还是我做错了什么？我使用的是版本0.19.0。

Answer 1

很难说没有看到文字，但我的猜测是它与标题行有关。

尝试：

df = pd.read_csv("text.csv", sep=" ", skiprows=1)
df.shape