在Python中处理数据

时间:2013-04-19 16:26:47

标签: python dataset large-data

我已经和mathcad合作了好几年,但它并不适合数据操作。我正在学习python,我想知道如何使用python脚本操作数据。基本上我的数据集来自这样组织的dat文件:

w : A_D02
chipX : 6
chipY : -3
ID :2_12-A1
BOD
12  1.93
10  1.5
8   1.43
6   1.46
4   1.39
2   1.41
48  1.35
46  1.41
44  1.39
42  1.44
40  1.44
38  2.08
36  2.1
34  1.47
32  1.46
30  1.42
28  1.45
26  1.37
24  1.41
22  1.39
20  1.44
18  1.46
16  1.49
14  1.97
0   0
EOD
w : A_D02
chipX : 6
chipY : -3
ID : 0.04_10
f : 100000 H
BOD
1.5 -8.48417e-12    0.000105852
1.45    -7.57959e-12    0.000104342
1.4 -6.66443e-12    0.000102611
1.35    -6.66912e-12    0.000101964
EOD
w : A_D02
chipX : 6
chipY : -3
ID : 0.04_10
f : 10000 H
BOD
1.5 2.54351e-12 0.000102326
1.45    3.30898e-12 0.000100371
1.4 4.05372e-12 9.91379e-05
1.35    4.89822e-12 9.86476e-05
EOD
w : A_D02
chipX : 6
chipY : -3
ID : 0.04_10
f : 1e+06 H
BOD
1.5 2.99854e-12 0.000109691
1.45    3.24767e-12 0.000109494
1.4 3.53048e-12 0.000110429
1.35    3.87087e-12 0.000112401
EOD

作为以txt格式保存的输出文件,我希望做到这样的事情:

w   chipX   chipY   ID  f   V   C   G
A_D02   6   -3   0.04_10    100000  1.5 -8.48E-12   0.000105852
A_D02   6   -3   0.04_10    100000  1.45    -7.58E-12   0.000104342
A_D02   6   -3   0.04_10    100000  1.4 -6.66E-12   0.000102611
A_D02   6   -3   0.04_10    100000  1.35    -6.67E-12   0.000101964
A_D02   6   -3   0.04_10    10000   1.5 2.54E-12    0.000102326
A_D02   6   -3   0.04_10    10000   1.45    3.31E-12    0.000100371
A_D02   6   -3   0.04_10    10000   1.4 4.05E-12    9.91E-05
A_D02   6   -3   0.04_10    10000   1.35    4.90E-12    9.86E-05
A_D02   6   -3   0.04_10    1.00E+06    1.5 3.00E-12    0.000109691
A_D02   6   -3   0.04_10    1.00E+06    1.45    3.25E-12    0.000109494
A_D02   6   -3   0.04_10    1.00E+06    1.4 3.53E-12    0.000110429
A_D02   6   -3   0.04_10    1.00E+06    1.35    3.87E-12    0.000112401
EOD

我真的很感谢你的帮助,因为在excel中执行此操作非常痛苦,特别是因为我已经为大型数据集执行此操作; - (

1 个答案:

答案 0 :(得分:0)

我强烈推荐Ipython + Pandas。

Pandas(http://pandas.pydata.org)本质上是python的优秀。您可以以易于操作和导入/导出的方式存储表格数据,并与许多python包(如numpy和scipy)集成。因为它适用于这些框架,所以它还允许更容易地桥接到其他语言。

Ipython(http://ipython.org/index.html)将为您提供一个出色的数据可视化界面,并允许您创建笔记本来存储您的工作,并与他人合作。

您可以查看https://www.enthought.com/canopy-express以快速设置这些工具。以下是enthought中的软件包列表:https://www.enthought.com/products/canopy/package-index/

这本书也是一本很棒的书,可以指导您设置和使用这些工具: http://shop.oreilly.com/product/0636920023784.do

如果你在python中做这种工作,这些绝对是你应该知道的工具。