我想从文件创建一个dataframe对象。该文件看起来与此类似
Gibberish Header1
Gibberish Header2
Gibberish Header3
Gibberish Header4 (etc)...
TAG THING_I_WANT_AS_COLUMN_NAME Column1
1.0 # I'll want this index as data 1
1.2 # I'll want this index as data 2
1.3 etc
TAG THING_I_WANT_AS_COLUMN_NAME Column2
1.1
1.1
1.7
我希望DataFrame看起来类似于:
Column_1 Column_2
data1 1.0 1.1
data2 1.2 1.1
data3 1.3 1.7
有没有办法在不编写函数的情况下将其转换为可以直接写入DataFrame类的字典?我想可能会重塑,但我不确定这在我的情况下会如何起作用。我知道将它写入dict是一件容易的事,但是这些文件可能非常大,所以它可能会大大减慢我的速度,甚至不能用我的RAM。
任何帮助,即使是正确方向的一点,也会非常感激。
谢谢!
答案 0 :(得分:0)
从头开始创建pandas数据框时,我通常会... 将pandas导入为pd
# create array for each column
col1 = [float(35*x) for x in xrange(10)]
col2 = [float(220*x) for x in xrange(10)]
dict = {'col1_name': col1, 'coll2_name': col2}
df = pd.DataFrame(dict)
就像其他人说过的那样,你必须先解析数据。没有看到实际数据,很难准确说出什么。你可以循环遍历文件中的每一行,忽略标题,一旦你点击列名称和东西设置标志。然后,您可以开始将值附加到数组。一旦你在数组中得到了两组数字,就像我在那里建立一个字典,你就会有一个数据帧!