我试图从hbase获取数据:
key = pd.read_sql('select key from table',hive_engine)
table = connection.table('games_ut')
res = {}
n = 0
for key in table.key:
res[str(key)] = table.row(b'{key}'.format(key=key))
n += 1
if n % 100000 == 0:
print(str(n) + " has been read,need a sleep!")
sleep(0.5)
睡觉(0.5)意味着休息。
你可以看到代码运行良好但速度太慢,给集群带来了很大的压力。因为密钥的长度超过了4000万。
所以,我想知道有没有办法让我同时获得数据批量。我试图使用table.rows(),但是fauild ..... 我是新手,真的是如何通过循环同时生成批量数据。
答案 0 :(得分:0)
在我尝试之后......我知道该怎么做。
只需使用行并将列表作为键传递...