我有一个大型数据集(~30GB),我希望通过滚动查看它来可视化。一个很好的例子是this video.中的顶部图表 我的数据来自CSV文件。
我到目前为止所尝试的是将大量CSV文件导入到一个numpy数组中并使用Set qdf = CurrentDb.CreateQueryDef("GeneratedReportData", GenSQL(False))
qdf.Connect = "ODBC;Driver=SQL Server;Server=[server name];DATABASE=[database];UID=[username];PWD=[password];"
qdf.ReturnsRecords = True
qdf.ODBCTimeout = 0
重复从右侧移动一个新列(如在视频中),直到我点击最后一列数组(通过在np.roll()
次迭代中调用np.roll()
。
这需要大量的CPU和更大的内存量。
有关如何处理此事的任何建议?我在网上找不到很多可以帮助我的例子。
答案 0 :(得分:1)
这是mat plot lib教程中的一些代码。
import numpy as np
from matplotlib.lines import Line2D
import matplotlib.pyplot as plt
import matplotlib.animation as animation
import math
class Scope(object):
def __init__(self, ax, maxt=2, dt=0.02):
self.ax = ax
self.dt = dt
self.maxt = maxt
self.tdata = [0]
self.ydata = [0]
self.line = Line2D(self.tdata, self.ydata)
self.ax.add_line(self.line)
self.ax.set_ylim(-.1, 1.1)
self.ax.set_xlim(0, self.maxt)
def update(self, y):
lastt = self.tdata[-1]
if lastt > self.tdata[0] + self.maxt: # reset the arrays
self.tdata = [self.tdata[-1]]
self.ydata = [self.ydata[-1]]
self.ax.set_xlim(self.tdata[0], self.tdata[0] + self.maxt)
self.ax.figure.canvas.draw()
t = self.tdata[-1] + self.dt
self.tdata.append(t)
self.ydata.append(y)
self.line.set_data(self.tdata, self.ydata)
return self.line,
def emitter(x=0):
'return a random value with probability p, else 0'
while True:
if x<361:
x = x + 1
yield math.sin(math.radians(x))
else:
x=0
x =x + 1
yield math.sin(math.radians(x))
# Fixing random state for reproducibility
np.random.seed(19680801)
fig, ax = plt.subplots()
scope = Scope(ax)
# pass a generator in "emitter" to produce data for the update func
ani = animation.FuncAnimation(fig, scope.update, emitter, interval=10,
blit=True)
plt.show()
我的建议是构建一个生成器,生成每次调用时要显示的下一个数据集。这样你就不需要将整个文件加载到内存中。更多关于那个here。将emitter
函数替换为将从您的文件中提取的生成器。这样做的缺点是我不相信图中可以使用完整的数组。