我有一些数据。在SQLite数据库中有224,000行。我想从中提取时间序列信息以提供数据可视化工具。从本质上讲,数据库中的每一行都是一个事件,它具有(除其他事项之外并不严格相关)一个自纪元以来的秒数的时间日期组和一个负责它的名称。我想在db中提取每个名称每周有多少个事件。
这很简单:
SELECT COUNT(*),
name,
strf("%W:%Y", time, "unixepoch")
FROM events
GROUP BY strf("%W:%Y", time, "unixepoch"), name
ORDER BY time
我们得到大约六千行数据。
count name week:year
23............ fudge.......23:2009
etc...
但是我不想每周为每个名字添加一行 - 我希望每个名称都有一行,每周需要一列,如下所示:
Name 23:2009 24:2009 25:2009
fudge........23............6............19
fish.........1.............0............12
etc...
现在,监控过程已经运行了69周,并且唯一名称的数量是502.很明显,我还没有热衷于任何涉及对所有列进行硬编码而且行数更少的解决方案。对于任何涉及迭代的事情我都不那么松懈,比如使用python的executemany(),但我愿意在必要时接受它。 SQL本质上是固定的,该死的。
答案 0 :(得分:4)
在这种情况下,一个好的方法是不要将SQL推到令人费解和难以理解和维护的程度。让SQL做方便的事情,并在Python中对查询结果进行后处理。
这是我写的简单交叉表生成器的简化版本。完整版提供行/列/总计。
你会注意到它内置了“分组依据” - 最初的用例是用Python和xlrd汇总从Excel文件中获取的数据。
您提供的row_key
和col_key
不需要像示例中那样是字符串;它们可以是元组 - 例如在您的情况下(year, week)
- 或者它们可以是整数 - 例如你有一个字符串列名称到整数排序键的映射。
import sys
class CrossTab(object):
def __init__(
self,
missing=0, # what to return for an empty cell. Alternatives: '', 0.0, None, 'NULL'
):
self.missing = missing
self.col_key_set = set()
self.cell_dict = {}
self.headings_OK = False
def add_item(self, row_key, col_key, value):
self.col_key_set.add(col_key)
try:
self.cell_dict[row_key][col_key] += value
except KeyError:
try:
self.cell_dict[row_key][col_key] = value
except KeyError:
self.cell_dict[row_key] = {col_key: value}
def _process_headings(self):
if self.headings_OK:
return
self.row_headings = list(sorted(self.cell_dict.iterkeys()))
self.col_headings = list(sorted(self.col_key_set))
self.headings_OK = True
def get_col_headings(self):
self._process_headings()
return self.col_headings
def generate_row_info(self):
self._process_headings()
for row_key in self.row_headings:
row_dict = self.cell_dict[row_key]
row_vals = [row_dict.get(col_key, self.missing) for col_key in self.col_headings]
yield row_key, row_vals
def dump(self, f=None, header=None, footer='', ):
if f is None:
f = sys.stdout
alist = self.__dict__.items()
alist.sort()
if header is not None:
print >> f, header
for attr, value in alist:
print >> f, "%s: %r" % (attr, value)
if footer is not None:
print >> f, footer
if __name__ == "__main__":
data = [
['Rob', 'Morn', 240],
['Rob', 'Aft', 300],
['Joe', 'Morn', 70],
['Joe', 'Aft', 80],
['Jill', 'Morn', 100],
['Jill', 'Aft', 150],
['Rob', 'Aft', 40],
['Rob', 'aft', 5],
['Dozy', 'Aft', 1],
# Dozy doesn't show up till lunch-time
['Nemo', 'never', -1],
]
NAME, TIME, AMOUNT = range(3)
xlate_time = {'morn': "AM", "aft": "PM"}
print
ctab = CrossTab(missing=None, )
# ctab.dump(header='=== after init ===')
for s in data:
ctab.add_item(
row_key=s[NAME],
col_key= xlate_time.get(s[TIME].lower(), "XXXX"),
value=s[AMOUNT])
# ctab.dump(header='=== after add_item ===')
print ctab.get_col_headings()
# ctab.dump(header='=== after get_col_headings ===')
for x in ctab.generate_row_info():
print x
输出:
['AM', 'PM', 'XXXX']
('Dozy', [None, 1, None])
('Jill', [100, 150, None])
('Joe', [70, 80, None])
('Nemo', [None, None, -1])
('Rob', [240, 345, None])
答案 1 :(得分:1)
我会先查询
SELECT COUNT(*),
name,
strf("%W:%Y", time, "unixepoch")
FROM events
GROUP BY strf("%W:%Y", time, "unixepoch"), name
ORDER BY time
然后使用python进行后期处理。
因此,您不必迭代超过224,000行但超过6,000行。您可以轻松地将这6000个行存储在内存中(用于使用Python进行处理)。我认为你也可以在内存中存储224,000行,但它需要相当多的内存。
但是:新版本的sqlite支持聚合函数group_concat。也许您可以使用此函数与SQL进行透视?我无法尝试,因为我使用旧版本。