在Python MatPlotLib中生成频率热图,从.csv文件读取X和Y坐标

时间:2011-05-03 18:13:05

标签: python csv matplotlib

我最近偶然发现了一个关于how to generate a heatmap of frequencies in Python using the MatPlotLib module的类似问题。

这篇文章非常有用,我可以让各个脚本运行并为代码本身生成的随机测试数据创建热图。但是,我无法调整代码来为我正在使用的数据创建热图。数据采用逗号描述的格式(.csv)。

我目前在此.csv文件中保存了3788对平均质量评级。这些平均质量等级的范围都是0到5.我正在尝试创建一个热图,在x和y轴上以0.5的增量对数据进行分箱(0- .499,.5-.999,1-1.499等等)。

我想将.csv文件的第一列(webqualityratings)导入热图的x值和.csv文件的第二列(inpersonqualityratings)作为热图的y值。

我尝试改编的代码由“ptomato”发布并由Mike Graham编辑如下:

import numpy as np   
import numpy.random   
import matplotlib.pyplot as plt  

# Generate some test data  
x = np.random.randn(8873)  
y = np.random.randn(8873)  

heatmap, xedges, yedges = np.histogram2d(x, y, bins=50)  
extent = [xedges[0], xedges[-1], yedges[0], yedges[-1]]  
plt.clf()  
plt.imshow(heatmap, extent=extent)  
plt.show() 

如果有人可以帮助我调整此代码来读取我指定的.csv文件中的数据,我将永远感激不尽!

2 个答案:

答案 0 :(得分:5)

由于您可以使用numpy并假设您的csv文件表现良好,因此您可以使用numpy.loadtxt()

import numpy as np   
import matplotlib.pyplot as plt  

dat = np.loadtxt('mydata.csv')

x, y = dat[:,0], dat[:,1]

heatmap, xedges, yedges = np.histogram2d(x, y, bins=50)  
extent = [xedges[0], xedges[-1], yedges[0], yedges[-1]]  
plt.clf()  
plt.imshow(heatmap, extent=extent)  
plt.show() 

答案 1 :(得分:-1)

Python有一个非常壮观的csv文件库:

  

http://docs.python.org/library/csv.html

虽然我不知道matplotlib的详细信息,但以下代码将遍历制表符分隔的csv文件,并在每个第一列和第二列上执行代码。

import numpy as np
import numpy.random
import matplotlib.pyplot as plt
import csv

with open(yourInputFile, "rb") as mycsv:
    reader = csv.DictReader(mycsv, dialect='excel-tab')

    for row in reader:
        x = row['name of first column']
        y = row['name of second column']
        heatmap, xedges, yedges = np.histogram2d(x, y, bins=50)
        extent = [xedges[0], xedges[-1], yedges[0], yedges[-1]]
        plt.clf()
        plt.imshow(heatmap, extent=extent)

plt.show()

请注意,我使用的是DictReader变体,它需要一个标头才能工作。在文件的开头,或作为构造函数的输入。您也可以使用常规阅读器,但它使用的是列号而不是名称,而且在100多个字段中使用的是笨重的。

您可以更改特定csv文件的方言,甚至可以根据需要创建自己的方言。

最后,请注意我对matplotlib一无所知,而且那段代码很可能是错误的。