这里是python的新手(但在R,SQL方面有经验)。 我试过谷歌搜索,但无法产生新的想法。 我的主要目的是使用我的csv数据生成矩阵,但我想将第二列转换为矩阵的行。然后我想用我的第3列中的数据填充该矩阵,但是无法到达任何地方。
几天后,我想出了这段代码:
import csv
def readcsv(csvfile_name):
with open(csvfile_name) as csvfile:
file=csv.reader(csvfile, delimiter=",")
#remove rubbish data in first few rows
skiprows = int(input('Number of rows to skip? '))
for i in range(skiprows):
_ = next(file)
#change strings into integers/floats
for z in file:
z[:2]=map(int, z[:2])
z[2:]=map(float, z[2:])
print(z[:2])
return
这只是清理我的数据,但我想做的是将数据转换为矩阵。我拥有的数据是这样的(想象x,y,z,d和其他字母是浮点数):
1 1 x
1 2 y
1 3 z
1 4 d
. . .
. . .
但是,我想将这些数据转换成这样的矩阵:即我想用第3列中的数据填充该矩阵(这里的字母只是为了让你们更容易阅读)和转换第二列为矩阵的一行。因此,实质上,该CSV文件的第一列和第二列是矩阵的坐标。
1 2 3 4 . .
1 x y z d
1 a b c u
1 e f e y
.
.
我尝试学习numpy,但看起来它需要我的数据已经是矩阵形式。
答案 0 :(得分:1)
如果您想使用numpy,根据数据的存储方式,您有两个选项。
如果保证您的密钥始终如一地增加,例如:
THIS NOT THIS
------ --------
1 1 a 1 1 a
1 2 b 1 3 b
1 3 c 2 1 c
1 4 d 3 1 d
2 1 e 1 2 e
2 2 f 1 4 f
2 3 g 8 8 g
2 4 h 2 2 h
然后简单地获取最右列中的所有值并将它们放入一个扁平的numpy数组中,并根据左列和中间列中的最大值重新整形。
import numpy as np
m = np.array(right_column)
# For the sake of example:
#: array([1., 2., 3., 4., 5., 6., 7., 8.])
m = m.reshape(max(left_column), max(middle_column))
#: array([[1., 2., 3., 4.],
#: [5., 6., 7., 8.]])
如果不能保证,你可以对它进行排序以便它(可能是最简单的),或者创建一个正确形状的零数组并循环遍历每个元素。
# Example data
left_column = [1, 2, 1, 2, 1, 2, 1, 2]
middle_column = [1, 1, 3, 3, 2, 2, 4, 4]
right_column = [1., 5., 3., 7., 2., 6., 4., 8.]
import numpy as np
m = np.zeros((max(left_column), max(middle_column)), dtype=np.float)
for x, y, z in zip(left_column, middle_column, right_column):
x -= 1 # Because the indicies are 1-based
y -= 1 # Need to be 0-based
m[x, y] = z
print(m)
#: array([[ 1., 2., 3., 4.],
#: [ 5., 6., 7., 8.]])