python pandas来自文件的数据帧

时间:2014-11-21 04:18:25

标签: python pandas reshape

我想从文件创建一个dataframe对象。该文件看起来与此类似

Gibberish Header1
Gibberish Header2
Gibberish Header3
Gibberish Header4 (etc)...
TAG THING_I_WANT_AS_COLUMN_NAME Column1
1.0  # I'll want this index as data 1 
1.2  # I'll want this index as data 2 
1.3  etc
TAG THING_I_WANT_AS_COLUMN_NAME Column2
1.1
1.1
1.7

我希望DataFrame看起来类似于:

       Column_1    Column_2 
data1  1.0         1.1
data2  1.2         1.1
data3  1.3         1.7

有没有办法在不编写函数的情况下将其转换为可以直接写入DataFrame类的字典?我想可能会重塑,但我不确定这在我的情况下会如何起作用。我知道将它写入dict是一件容易的事,但是这些文件可能非常大,所以它可能会大大减慢我的速度,甚至不能用我的RAM。

任何帮助,即使是正确方向的一点,也会非常感激。

谢谢!

1 个答案:

答案 0 :(得分:0)

从头开始创建pandas数据框时,我通常会...     将pandas导入为pd

# create array for each column
col1 = [float(35*x) for x in xrange(10)]
col2 = [float(220*x) for x in xrange(10)]

dict = {'col1_name': col1, 'coll2_name': col2}
df = pd.DataFrame(dict)

就像其他人说过的那样,你必须先解析数据。没有看到实际数据,很难准确说出什么。你可以循环遍历文件中的每一行,忽略标题,一旦你点击列名称和东西设置标志。然后,您可以开始将值附加到数组。一旦你在数组中得到了两组数字,就像我在那里建立一个字典,你就会有一个数据帧!