我正在运行多线程python脚本。它的作用是抓取网页并插入/更新到mysql中。这是我的代码
mythread.py
import threading
import time
class MyThread (threading.Thread):
def __init__(self, threadID, threadname, q):
threading.Thread.__init__(self)
self.threadID = threadID
self.threadname = threadname
self.queue = q
self.__exitFlag = False
self.__signal_lock = threading.Lock()
def run(self):
print "Starting " + self.threadname
self.process_data()
print "Exiting " + self.threadname
def stop(self):
with self.__signal_lock:
self.__exitFlag = True
def process_data(self):
while not self.__exitFlag:
if not self.queue.empty():
data = self.queue.get()
# crawl data from the web...
# update to mysql
# assuming we have already connected mysql:
# db = MySQLDb()
# db.connect
query = ""
db.query(query)
mysql_db.py
class MySQLDb:
conn = None
def connect(self):
self.conn = MySQLdb.connect(
host="127.0.0.1",
user = "root",
passwd = "password",
db = "moviestats")
self.cursor = self.conn.cursor(MySQLdb.cursors.DictCursor)
def query(self, sql):
try:
self.cursor.execute(sql)
self.conn.commit()
except (AttributeError, MySQLdb.OperationalError):
# solution to: MySQL server has gone away
self.cursor.close()
self.connect()
self.cursor = self.conn.cursor(MySQLdb.cursors.DictCursor)
self.cursor.execute(sql)
self.conn.commit()
以下是错误日志:
Process: Python [905]
Path: /Library/Frameworks/Python.framework/Versions/2.7/Resources/Python.app/Contents/MacOS/Python
Identifier: Python
Version: 2.7.7 (2.7.7)
Code Type: X86-64 (Native)
Parent Process: bash [751]
Responsible: Terminal [410]
User ID: 501
Date/Time: 2014-07-09 22:31:43.221 +0800
OS Version: Mac OS X 10.9.3 (13D65)
Report Version: 11
....
....
Crashed Thread: 5
Exception Type: EXC_CRASH (SIGABRT)
Exception Codes: 0x0000000000000000, 0x0000000000000000
Application Specific Information:
abort() called
*** error for object 0x100a4b600: pointer being freed was not allocated
......
Thread 5 Crashed:
0 libsystem_kernel.dylib 0x00007fff83153866 __pthread_kill + 10
1 libsystem_pthread.dylib 0x00007fff8de8735c pthread_kill + 92
2 libsystem_c.dylib 0x00007fff8ef88b1a abort + 125
3 libsystem_malloc.dylib 0x00007fff8220707f free + 411
4 libmysqlclient.18.dylib 0x0000000101027302 vio_delete + 44
5 libmysqlclient.18.dylib 0x000000010100709a end_server + 48
6 libmysqlclient.18.dylib 0x0000000101006f81 cli_safe_read + 49
7 libmysqlclient.18.dylib 0x000000010100b469 cli_read_query_result + 26
8 libmysqlclient.18.dylib 0x000000010100a648 mysql_real_query + 83
9 _mysql.so 0x0000000100533be8 _mysql_ConnectionObject_query + 85
10 org.python.python 0x00000001000c2fad PyEval_EvalFrameEx + 21405
11 org.python.python 0x00000001000c3bfa PyEval_EvalFrameEx + 24554
12 org.python.python 0x00000001000c3bfa PyEval_EvalFrameEx + 24554
13 org.python.python 0x00000001000c4fb3 PyEval_EvalCodeEx + 2115
14 org.python.python 0x00000001000c33f0 PyEval_EvalFrameEx + 22496
15 org.python.python 0x00000001000c3bfa PyEval_EvalFrameEx + 24554
16 org.python.python 0x00000001000c3bfa PyEval_EvalFrameEx + 24554
17 org.python.python 0x00000001000c4fb3 PyEval_EvalCodeEx + 2115
18 org.python.python 0x00000001000c33f0 PyEval_EvalFrameEx + 22496
19 org.python.python 0x00000001000c3bfa PyEval_EvalFrameEx + 24554
20 org.python.python 0x00000001000c3bfa PyEval_EvalFrameEx + 24554
21 org.python.python 0x00000001000c3bfa PyEval_EvalFrameEx + 24554
22 org.python.python 0x00000001000c4fb3 PyEval_EvalCodeEx + 2115
23 org.python.python 0x000000010003eac0 function_call + 176
24 org.python.python 0x000000010000ceb2 PyObject_Call + 98
25 org.python.python 0x000000010001f56d instancemethod_call + 365
26 org.python.python 0x000000010000ceb2 PyObject_Call + 98
27 org.python.python 0x00000001000bc957 PyEval_CallObjectWithKeywords + 87
28 org.python.python 0x0000000100102f27 t_bootstrap + 71
29 libsystem_pthread.dylib 0x00007fff8de86899 _pthread_body + 138
30 libsystem_pthread.dylib 0x00007fff8de8672a _pthread_start + 137
31 libsystem_pthread.dylib 0x00007fff8de8afc9 thread_start + 13
我用50个线程运行脚本。发生的错误是间歇性的,但它是可重复的。我缩小了问题,因为插入/更新了mysql。我读到这可能是由于并发问题,但我该如何解决?
答案 0 :(得分:3)
我使用MySQLdb在OSX上遇到了同样的malloc错误。导致我的错误的是在线程之间共享MySQLdb连接。每个线程使用一个连接为我修复它。
来自文档http://mysql-python.sourceforge.net/MySQLdb.html:
MySQL协议无法使用相同的处理多个线程 立刻连接。一些早期版本的MySQLdb使用了锁定 实现2的线程安全。虽然这不是非常难 完成使用标准的Cursor类(使用 mysql_store_result()),由SSCursor复杂化(使用 了mysql_use_result();对于后者,您必须确保所有行都有 在执行另一个查询之前已被读取。它是进一步的 由于交易开始,因此增加了交易 当游标执行查询时,但在COMMIT或ROLLBACK结束时结束 由Connection对象执行。两个线程根本无法共享一个 事务正在进行中的连接,除此之外 能够在查询执行期间共享它。这个过分了 将代码复杂化到不值得的地步。
这样做的一般结果是:不要分享之间的联系 线程。这真的不值得你的努力或我的努力,最后, 可能会损害性能,因为MySQL服务器单独运行 每个连接的线程。你当然可以做像缓存这样的事情 池中的连接,并将这些连接提供给a处的一个线程 时间。如果让两个线程同时使用连接,那么 MySQL客户端库可能会崩溃并死掉。你去过 警告。
答案 1 :(得分:2)
我遇到了同样的问题,但我想到了不对数据库进行多线程访问的方法。并且进一步想到我认为拥有大量具有连接的线程(或者至少它可能是棘手的业务)是一种不好的做法。考虑如何进行批量读取和写入,并在不涉及数据库的情况下对处理进行多线程处理。
这可能仍然是Python绑定中的一个错误,但我能够通过简化程序访问数据库的方式并将代码并行化并实际需要并行化来取得进展。希望这有帮助!
答案 2 :(得分:0)
一般来说,这个错误可能是随机的。我遇到了这个错误,但在再次运行程序后没有收到错误。我运行了我的程序(与mysql_db无关,虽然也很复杂)5次。我只在第一次和第四次运行中发现了这个错误。