我的目标是使用stdin管道将数据帧加载到DB中,在命令行执行加载语句(例如cat {file_loc} | / path / to / sql --command“COPY table FROM STDIN WITH DELIMITER” ';“)。我知道这种方法不是最理想的;由于pyodbc问题,这是一个解决方法;)
压缩数据帧的最有效方法是什么,以便每行都是一个字符串,其中包含分隔符分隔值,末尾有换行符?我的解决方案在下面似乎效率低下。
from pandas import *
import numpy as np
df = DataFrame(np.random.randint(low=0, high=100, size=(5,3)),columns=['A','B','C'])
df2 = df.apply(lambda d: ','.join([`x` for x in d]))
使用df.to_csv()或类似方法编写数据帧太慢了......
import timeit
m1="""df2=df.apply(lambda d: ','.join([`x` for x in d]))"""
met1t = timeit.Timer(stmt=m1,setup="from pandas import *; import numpy as np; df = DataFrame(np.random.randint(low=0, high=100, size=(5,3)),columns=['A','B','C'])")
print "Method 1: %.2f usec/pass" % (1000000 * met1t.timeit(number=100000)/100000)
# 381.82 usec/pass
m2="""df.to_csv('testout.csv', index=False, header=False)"""
met2t = timeit.Timer(stmt=m2,setup="from pandas import *; import numpy as np; df = DataFrame(np.random.randint(low=0, high=100, size=(5,3)),columns=['A','B','C'])")
print "Method 2:%.2f usec/pass" % (1000000 * met2t.timeit(number=100000)/100000)
# 551.30 usec/pass
答案 0 :(得分:0)
你能描述一下pyodbc问题吗?
我在这里创建了一个问题。要获得最终的性能,您需要下载到C或Cython中,并使用C字符串函数自己构建原始字节字符串。我知道,不是很满意。在某些时候,我们也应该为熊猫建立性能更好的to_csv: