以下是许多txt文件之一的副本。
Class 1:
Subject A:
posX posY posZ x(%) y(%)
0 2 0 81 72
0 2 180 63 38
-1 -2 0 79 84
-1 -2 180 85 95
. . . . .
Subject B:
posX posY posZ x(%) y(%)
0 2 0 71 73
-1 -2 0 69 88
. . . . .
Subject C:
posX posY posZ x(%) y(%)
0 2 0 86 71
-1 -2 0 81 55
. . . . .
Class 2:
Subject A:
posX posY posZ x(%) y(%)
0 2 0 81 72
-1 -2 0 79 84
. . . . .
我在excel中开发了一个难得的解决方案(使用宏和VBA),但我宁愿在python中寻求更优化的解决方案。
numpy是非常有用的,但.mean(),. std()函数只适用于数组 - 我还在研究它以及panda的groupby函数。
我希望最终输出看起来如下(1.按类,2。按主题)
1. By Class
X Y
Average
std_dev
2. By Subject
X Y
Average
std_dev
答案 0 :(得分:1)
我认为使用字典(以及字典列表)是熟悉在python中处理数据的好方法。要像这样格式化数据,您需要读取文本文件并逐行定义变量。
开始:
for line in infile:
if line.startswith("Class"):
temp,class_var = line.split(' ')
class_var = class_var.replace(':','')
elif line.startswith("Subject"):
temp,subject = line.split(' ')
subject = subject.replace(':','')
这将创建与当前类和当前主题相对应的变量。然后,您想要读入数值变量。读取这些值的好方法是通过try
语句,它将尝试将它们转换为整数。
else:
line = line.split(" ")
try:
keys = ['posX','posY','posZ','x_perc','y_perc']
values = [int(item) for item in line]
entry = dict(zip(keys,values))
entry['class'] = class_var
entry['subject'] = subject
outputList.append(entry)
except ValueError:
pass
这会将它们放入字典形式,包括先前定义的类和主题变量,并将它们附加到outputList。你最终会得到这个:
[{'posX': 0, 'x_perc': 81, 'posZ': 0, 'y_perc': 72, 'posY': 2, 'class': '1', 'subject': 'A'},
{'posX': 0, 'x_perc': 63, 'posZ': 180, 'y_perc': 38, 'posY': 2, 'class': '1', 'subject': 'A'}, ...]
等
然后,您可以通过对字典列表进行子集化来平均/获取SD(应用排除posZ = 180等规则)。这是按类别进行平均:
classes = ['1','2']
print "By Class:"
print "Class","Avg X","Avg Y","X SD","Y SD"
for class_var in classes:
x_m = np.mean([item['x_perc'] for item in output if item['class'] == class_var and item['posZ'] != 180])
y_m = np.mean([item['y_perc'] for item in output if item['class'] == class_var and item['posZ'] != 180])
x_sd = np.std([item['x_perc'] for item in output if item['class'] == class_var and item['posZ'] != 180])
y_sd = np.std([item['y_perc'] for item in output if item['class'] == class_var and item['posZ'] != 180])
print class_var,x_m,y_m,x_sd,y_sd
你必须玩打印输出才能得到你想要的东西,但这应该可以让你开始。