Question

我想从文件创建一个dataframe对象。该文件看起来与此类似

Gibberish Header1
Gibberish Header2
Gibberish Header3
Gibberish Header4 (etc)...
TAG THING_I_WANT_AS_COLUMN_NAME Column1
1.0  # I'll want this index as data 1 
1.2  # I'll want this index as data 2 
1.3  etc
TAG THING_I_WANT_AS_COLUMN_NAME Column2
1.1
1.1
1.7

我希望DataFrame看起来类似于：

       Column_1    Column_2 
data1  1.0         1.1
data2  1.2         1.1
data3  1.3         1.7

有没有办法在不编写函数的情况下将其转换为可以直接写入DataFrame类的字典？我想可能会重塑，但我不确定这在我的情况下会如何起作用。我知道将它写入dict是一件容易的事，但是这些文件可能非常大，所以它可能会大大减慢我的速度，甚至不能用我的RAM。

任何帮助，即使是正确方向的一点，也会非常感激。

谢谢！

Answer 1

从头开始创建pandas数据框时，我通常会... 将pandas导入为pd

# create array for each column
col1 = [float(35*x) for x in xrange(10)]
col2 = [float(220*x) for x in xrange(10)]

dict = {'col1_name': col1, 'coll2_name': col2}
df = pd.DataFrame(dict)

就像其他人说过的那样，你必须先解析数据。没有看到实际数据，很难准确说出什么。你可以循环遍历文件中的每一行，忽略标题，一旦你点击列名称和东西设置标志。然后，您可以开始将值附加到数组。一旦你在数组中得到了两组数字，就像我在那里建立一个字典，你就会有一个数据帧！

python pandas来自文件的数据帧

1 个答案: