Pandas DataFrame无法读取数据

时间:2016-04-09 17:22:21

标签: python numpy pandas dataframe

我和大熊猫有问题,几个月前我没有这个问题。我试图从用户输入(使用tkinter)获取一组数据并将其放入pandas数据帧。以下是数据的样子:

1.000000    03/27/2016   13:29:26.098   1431.778943 0.092089
1.000000    03/27/2016   13:29:26.298   1432.410517 0.078570
1.000000    03/27/2016   13:29:26.498   1431.905258 0.089538
1.000000    03/27/2016   13:29:26.698   1431.399999 0.080930
5.000000    03/28/2016   00:00:00.098   1289.422164 0.392945
25.000000   03/28/2016   00:00:00.298   1289.295849 0.145016
25.000000   03/28/2016   00:00:00.498   1289.295849 0.183149
25.000000   03/28/2016   00:00:00.698   1288.790590 0.175114
26.000000   03/28/2016   00:25:16.698   1302.053644 0.162170
.....

设置了5列,但数据集中通常有200,000到800,000行。

这是我的代码:

import pandas as pd
import tkinter as tk
from tkinter import filedialog

root = tk.Tk()
root.withdraw()
file_path = filedialog.askopenfilename() #User selects file

file = pd.read_table(file_path, index_col=False)
df = pd.DataFrame(data=file, columns=['Measurement', 'Date', 'Time','CO2', 'Flow'], dtype=object)

print(file_path)
print(file)
print(df)

print(file_path)输出正确的路径,print(文件)显示所有正确的数据,print(df)显示:

 Measurement Date Time  CO2 Flow
0            NaN  NaN  NaN  NaN  NaN
1            NaN  NaN  NaN  NaN  NaN
2            NaN  NaN  NaN  NaN  NaN
3            NaN  NaN  NaN  NaN  NaN
4            NaN  NaN  NaN  NaN  NaN
5            NaN  NaN  NaN  NaN  NaN
6            NaN  NaN  NaN  NaN  NaN
7            NaN  NaN  NaN  NaN  NaN
8            NaN  NaN  NaN  NaN  NaN
.......

之前我做过同样的事情,但是我丢失了我正在处理的脚本,需要重新开始。之前它运作得很好,但我不确定发生了什么。我已经尝试了几件事来解决它:

  1. 将pd.read_table更改为pd.io.parsers.read_table
  2. 更改了index =,dtype =和pd.DataFrame的其他属性
  3. 将文件转换为.csv并使用pd.read_csv
  4. 显着缩短文件
  5. 使用单个列创建pd.Series并打印但仍具有所有数据点的NaN
  6. 我可以很容易地生成一组随机数据并将其变成pd.DataFrame而没有问题(我使用了df2 = DataFrame(np.random.randn(10,5)列= [' a&#39 ;,' b'' c',' d',' e'])在ipython中正确显示。

    我使用相同的数据创建了一个numpy数组,它工作正常。我想使用熊猫,因为我认为从长远来看,我的分析会更容易。我真的希望这是一个我想念的小事,但我已经做了一段时间了,所以我愿意尝试任何事情。

0 个答案:

没有答案