我有一个csv文件,我称之为test.csv
。它由分隔。为了检查它的正确性,我使用
awk 'NR==**' test.csv | wc -w
表示不同的**值,并确保它按预期排列了2595列。
它有一个标题行。我使用以下代码将csv加载为numpy数组:
a = np.genfromtxt("test.csv", skip_header=1, delimiter=' ')
a.shape
(3367, 2595)
它使用2595列正确加载文件。
当我使用以下代码加载pandas时,它使用错误的列数加载了文件。
test = pd.read_csv("test.csv", sep=' ')
test.shape
(3367, 2539)
然后我使用了delim_whitespace=True
而不是sep=' '
,它仍然给出了相同的结果。
最后,我使用index_col=False
并抛出IndexError: list index out of range
。
这是熊猫中的错误还是我做错了什么?我使用的是版本0.19.0
。
答案 0 :(得分:0)
很难说没有看到文字,但我的猜测是它与标题行有关。
尝试:
df = pd.read_csv("text.csv", sep=" ", skiprows=1)
df.shape