将IBM_DB与Pandas一起使用

时间:2015-11-19 12:46:27

标签: python pandas db2

我正在尝试在Python语言中使用数据分析工具Pandas。我正在尝试使用 ibm_db 包从IBM DB读取数据。根据Pandas网站上的文档,我们需要提供至少2个参数,一个是将要执行的sql,另一个是数据库的连接对象。但是当我这样做时,它给出了错误,即连接对象中没有cursor()方法。我想也许这不是这个特定的数据库包的工作方式。我试图找到一些解决方法,但没有成功。

代码:

print "hello PyDev"
con = db.connect("DATABASE=db;HOSTNAME=localhost;PORT=50000;PROTOCOL=TCPIP;UID=admin;PWD=admin;", "", "")
sql = "select * from Maximo.PLUSPCUSTOMER"
stmt = db.exec_immediate(con,sql)
pd.read_sql(sql, db)
print "done here"

错误:

hello PyDev
Traceback (most recent call last):
  File "C:\Users\ray\workspace\Firstproject\pack\test.py", line 15, in <module>
    pd.read_sql(sql, con)
  File "D:\etl\lib\site-packages\pandas\io\sql.py", line 478, in read_sql
    chunksize=chunksize)
  File "D:\etl\lib\site-packages\pandas\io\sql.py", line 1504, in read_query
    cursor = self.execute(*args)
  File "D:\etl\lib\site-packages\pandas\io\sql.py", line 1467, in execute
    cur = self.con.cursor()
AttributeError: 'ibm_db.IBM_DBConnection' object has no attribute 'cursor'

如果我从数据库中获取数据,我可以获取数据,但是我需要读入数据帧并在处理数据后需要写回数据库。

从DB提取的代码

stmt = db.exec_immediate(con,sql)
 tpl=db.fetch_tuple(stmt)
 while tpl:
     print(tpl)
     tpl=db.fetch_tuple(stmt)

3 个答案:

答案 0 :(得分:8)

在进一步研究软件包时,我发现需要将IBM_DB连接对象包装在ibm_db_dbi连接对象中,该对象是同一个软件包的一部分。

所以

conn = ibm_db_dbi.Connection(con)
df = pd.read_sql(sql, conn)

以上代码有效,pandas成功将数据提取到数据框中。

答案 1 :(得分:0)

您还可以查看https://pypi.python.org/pypi/ibmdbpy

它提供了Pandas样式API,而不会将所有数据都提取到Python内存中。

文档在这里:http://pythonhosted.org/ibmdbpy/index.html 以下是如何在Bluemix笔记本中使用它的快速演示: https://www.youtube.com/watch?v=tk9T1yPkn4c

答案 2 :(得分:0)

from ibm_db import connect
import pandas as pd
import ibm_db_dbi
cnxn = connect('DATABASE=YourDatabaseName;'
                 'HOSTNAME=YourHost;'  # localhost would work 
                 'PORT=50000;'
                 'PROTOCOL=TCPIP;'
                 'UID=UserName;'
                 'PWD=Password;', '', '')
sql = "SELECT * FROM Maximo.PLUSPCUSTOMER"
stmt = ibm_db.exec_immediate(cnxn, sql)
conn=ibm_db_dbi.Connection(cnxn)
df = pd.read_sql(sql, conn)
df.head()