Question

我经常需要使用Python逐行处理几亿行MySQL表。我想要一个强大而且不需要监控的脚本。

下面我粘贴了一个脚本，用于对我行中消息字段的语言进行分类。它使用sqlalchemy和MySQLdb.cursors.SSCursor模块。不幸的是，当我在远程运行4840行之后，当我在本地运行时，此脚本在查询'错误期间始终抛出'丢失连接到MySQL服务器。

另外，我已根据此stackoverflow问题Lost connection to MySQL server during query
的答案检查了我的MySQL服务器的/etc/mysql/my.cnf文件中的max_allowed_packet = 32M
对于修复此错误或使用其他方法使用Python以强大的方式处理非常大的MySQL文件的任何建议将非常感激！

import sqlalchemy import MySQLdb.cursors import langid schema = "twitterstuff" table = "messages_en" #900M row table engine_url = "mysql://myserver/{}?charset=utf8mb4&read_default_file=~/.my.cnf".format(schema) db_eng = sqlalchemy.create_engine(engine_url, connect_args={'cursorclass': MySQLdb.cursors.SSCursor} ) langid.set_languages(['fr', 'de']) print "Executing input query..." data_iter = db_eng.execute("SELECT message_id, message FROM {} WHERE langid_lang IS NULL LIMIT 10000".format(table)) def process(inp_iter): for item in inp_iter: item = dict(item) (item['langid_lang'], item['langid_conf']) = langid.classify(item['message']) yield item def update_table(update_iter): count = 0; for item in update_iter: count += 1; if count%10 == 0: print "{} rows processed".format(count) lang = item['langid_lang'] conf = item['langid_conf'] message_id = item['message_id'] db_eng.execute("UPDATE {} SET langid_lang = '{}', langid_conf = {} WHERE message_id = {}".format(table, lang, conf, message_id)) data_iter_upd = process(data_iter) print "Begin processing..." update_table(data_iter_upd)

Answer 1

According to MySQLdb developer Andy Dustman，

[使用SSCursor时]，在连接之前不能发出新的查询已取出整个结果集。

该帖子说如果你发出另一个查询，你会得到一个＆＃34;命令不按顺序＆＃34;错误，这不是你看到的错误。所以我不确定以下内容是否一定会解决您的问题。不过，可能值得尝试从代码中删除SSCursor并使用更简单的默认Cursor来测试这是否是问题的根源。

例如，您可以在LIMIT chunksize OFFSET n声明中使用SELECT 循环遍历数据集：

import sqlalchemy
import MySQLdb.cursors
import langid
import itertools as IT
chunksize = 1000

def process(inp_iter):
    for item in inp_iter:
        item = dict(item)
        (item['langid_lang'], item['langid_conf']) = langid.classify(item['message'])
        yield item

def update_table(update_iter, engine):
    for count, item in enumerate(update_iter):
        if count%10 == 0:
            print "{} rows processed".format(count)
        lang = item['langid_lang']
        conf = item['langid_conf']
        message_id = item['message_id']
        engine.execute(
            "UPDATE {} SET langid_lang = '{}', langid_conf = {} WHERE message_id = {}"
            .format(table, lang, conf, message_id))

schema = "twitterstuff"
table = "messages_en" #900M row table
engine_url = ("mysql://myserver/{}?charset=utf8mb4&read_default_file=~/.my.cnf"
              .format(schema))

db_eng = sqlalchemy.create_engine(engine_url)
langid.set_languages(['fr', 'de'])

for offset in IT.count(start=0, step=chunksize):
    print "Executing input query..."
    result = db_eng.execute(
        "SELECT message_id, message FROM {} WHERE langid_lang IS NULL LIMIT {} OFFSET {}"
        .format(table, chunksize, offset))
    result = list(result)
    if not result: break
    data_iter_upd = process(result)

    print "Begin processing..."
    update_table(data_iter_upd, db_eng)

使用Python

1 个答案: