Question

我正面临着这样的问题：

我有很多不是标准化格式的cvs文件。这是一个例子：

"VarName";"TimeString";"VarValue";"Validity";"Time_ms"
"Data_block_1_HC1_sec_voltage";"02.07.2015 14:16:56";3,740281;1;42187595088,2176
"Data_block_1_TC1.1";"02.07.2015 14:17:56";1319,3;1;42187595782,6042
"Data_block_1_TC1.2";"02.07.2015 14:17:56";1319,8;1;42187595782,6042
"Data_block_1_TCF1.1";"02.07.2015 14:17:56";513,9;1;42187595782,6042
"HC1_HC1_output";"02.07.2015 14:17:56";0;1;42187595782,6042
"Data_block_1_HC1_sec_cur";"02.07.2015 14:17:56";1782,873;1;42187595782,6042
"Data_block_1_HC1_power";"02.07.2015 14:17:56";6,68997;1;42187595782,6273
"HC1_HC1_setpoint";"02.07.2015 14:17:56";1320;1;42187595782,6273
"Data_block_1_HC1_sec_voltage";"02.07.2015 14:17:56";3,74994;1;42187595782,6273
"Data_block_1_TC1.1";"02.07.2015 14:18:56";1319,3;1;42187596477,0023
"Data_block_1_TC1.2";"02.07.2015 14:18:56";1320;1;42187596477,0023
"Data_block_1_TCF1.1";"02.07.2015 14:18:56";514,2;1;42187596477,0023
"HC1_HC1_output";"02.07.2015 14:18:56";0;1;42187596477,0023
"Data_block_1_HC1_sec_cur";"02.07.2015 14:18:56";1779,488;1;42187596477,0023
"Data_block_1_HC1_power";"02.07.2015 14:18:56";6,672971;1;42187596477,0255
"HC1_HC1_setpoint";"02.07.2015 14:18:56";1320;1;42187596477,0255

恰好有8个变量具有相同的时间戳。

这是我用来形成数据的代码：

import csv
from collections import defaultdict
import os

from glob import glob
from datetime import datetime
from sqlalchemy import create_engine
from sqlalchemy import Table, Column, Integer, String, MetaData, ForeignKey

i=1
engine = create_engine('mysql+pymysql://root@localhost/test',echo=False)
conn = engine.connect()
metadata = MetaData(bind=engine)
data_dir = ''


sql_values_list = list()


for file_name in glob(os.path.join(data_dir, 'HC10.csv')):
    with open(file_name, 'rt') as f:
        #data_file=open('HC10.csv','rU')
        reader=csv.DictReader(f,delimiter=';', quotechar='"')
        data=defaultdict(lambda:[None,None,None,None,None,None,None,None])
        fruit_to_index = defaultdict(lambda:None,{'Data_block_1_HC1_sec_voltage':0,'Data_block_1_TC1.1':1,'Data_block_1_TC1.2':2,'Data_block_1_TCF1.1':3,'HC1_HC1_output':4,'Data_block_1_HC1_sec_cur':5,'Data_block_1_HC1_power':6,'HC1_HC1_setpoint':7})
        for row in reader:
            if fruit_to_index[row['VarName']] != None:

                data[datetime.strptime(row['TimeString'], '%d.%m.%Y %H:%M:%S')][fruit_to_index[row['VarName']]] = float(row['VarValue'].replace(',', '.'))
                i=i+1
                if i==2:
                    for key, value in data.items():
                        if value !=
                        sql_values_list.append((key, value[0], value[1], value[2], value[3], value[4], value[5], value[6], value[7]))
                        i=3
                        print(sql_values_list)
        f.close()

数据输出此字典：

defaultdict(<function <lambda> at 0x038C26F0>, {datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1922.136, 7.755563, 1325.0], datetime.datetime(2015, 8, 15, 15, 4, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1930.6, 7.794376, 1325.0],....

这是我的问题：

由于其变量的一个时间戳可以在多个文件中（每个文件大约有12 000行），并且有300多个文件我不想一次处理它们。它的memorz消耗，这对我没什么帮助，因为新的时间戳每分钟都附加到新文件。为了更好地理解，这里有一个例子：

想象一下，我处理了一个文件（cca 12 000行），一个时间戳的输出可能是这样的：datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, NULL, NULL, NULL, 0.0, 1922.136, NULL, 1325.0]

我想将它插入到mysql中。下次我在不同的文件上运行脚本。我的输出可以是：

datetime.datetime(2015, 8, 15, 15, 1, 33): [NULL, 1324.1, 1325.0, 533.7, NULL, NULL, 7.755563, NULL],

请注意，一个时间戳总是有8个变量，所以每个时间戳都不能有两个不同的值。

更新后的结果应为：

datetime.datetime(2015, 8, 15, 15, 1, 33): [4.034867, 1324.1, 1325.0, 533.7, 0.0, 1922.136, 7.755563, 1325.0],

我需要为给定的时间戳（db中的primarykey）更新mysql db，但只需要更新为NULL的字段。因为在临时更新时，我会用NULL值重写存储的变量。

我知道有一个名为ISNULL或coalesce的sql语句。但我必须在python中这样做。我使用vesrion 3.4和pyMysql作为sqlalchemy的连接器。我知道sqlalclhemy可以进行更新，但没有像isnull那样的东西。请帮助，因为这对我来说非常重要，而且我的python知识非常低。也许可以有另一个解决方案如何在没有更新的情况下做到这一点但对我来说似乎很难。非常感谢你的帮助

Answer 1

我想我今天找到了解决方案。这完全符合我的需要：

sql = "INSERT INTO `projections_sample` (`id`,`month`, `revenue`) VALUES (%s,%s, %s) ON DUPLICATE KEY UPDATE month=IF(VALUES(month)IS NULL,month,VALUES(month)),revenue=IF(VALUES(revenue)IS NULL,revenue,VALUES(revenue))"

它使用pymysql，它只更新NULL字段，保留现有记录。但是我不知道这个解决方案有多坚固，但这就是我需要做的事情，因此对我来说非常重要

使用python

1 个答案: