我和大熊猫有问题,几个月前我没有这个问题。我试图从用户输入(使用tkinter)获取一组数据并将其放入pandas数据帧。以下是数据的样子:
1.000000 03/27/2016 13:29:26.098 1431.778943 0.092089
1.000000 03/27/2016 13:29:26.298 1432.410517 0.078570
1.000000 03/27/2016 13:29:26.498 1431.905258 0.089538
1.000000 03/27/2016 13:29:26.698 1431.399999 0.080930
5.000000 03/28/2016 00:00:00.098 1289.422164 0.392945
25.000000 03/28/2016 00:00:00.298 1289.295849 0.145016
25.000000 03/28/2016 00:00:00.498 1289.295849 0.183149
25.000000 03/28/2016 00:00:00.698 1288.790590 0.175114
26.000000 03/28/2016 00:25:16.698 1302.053644 0.162170
.....
设置了5列,但数据集中通常有200,000到800,000行。
这是我的代码:
import pandas as pd
import tkinter as tk
from tkinter import filedialog
root = tk.Tk()
root.withdraw()
file_path = filedialog.askopenfilename() #User selects file
file = pd.read_table(file_path, index_col=False)
df = pd.DataFrame(data=file, columns=['Measurement', 'Date', 'Time','CO2', 'Flow'], dtype=object)
print(file_path)
print(file)
print(df)
print(file_path)输出正确的路径,print(文件)显示所有正确的数据,print(df)显示:
Measurement Date Time CO2 Flow
0 NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN
3 NaN NaN NaN NaN NaN
4 NaN NaN NaN NaN NaN
5 NaN NaN NaN NaN NaN
6 NaN NaN NaN NaN NaN
7 NaN NaN NaN NaN NaN
8 NaN NaN NaN NaN NaN
.......
之前我做过同样的事情,但是我丢失了我正在处理的脚本,需要重新开始。之前它运作得很好,但我不确定发生了什么。我已经尝试了几件事来解决它:
我可以很容易地生成一组随机数据并将其变成pd.DataFrame而没有问题(我使用了df2 = DataFrame(np.random.randn(10,5)列= [' a&#39 ;,' b'' c',' d',' e'])在ipython中正确显示。
我使用相同的数据创建了一个numpy数组,它工作正常。我想使用熊猫,因为我认为从长远来看,我的分析会更容易。我真的希望这是一个我想念的小事,但我已经做了一段时间了,所以我愿意尝试任何事情。