我想从一个hive表中读取数据,该表有大约110毫米的行,只有2列进入一个dask数据帧。有人这样做过吗?我使用pyhs2连接到hive。
目前我正在通过限制行数将数据读入pandas数据框。
当前代码 -
import pyhs2
import pandas as pd
import dask.dataframe as dd
conn = pyhs2.connect(host='10.xx.xxx.131', port= 10000, authMechanism='PLAIN', user='userid', password = "passWoRD",database='default')
cur = conn.cursor()
cur.execute("select * from hive_table limit 100000")
res = cur.getSchema()
description = list(col['columnName'] for col in res) ## for getting the column names of the table
headers = [x.split(".")[1] for x in description]
df= pd.DataFrame(cur.fetchall(),columns = headers) ## code for getting data into pandas dataframe
# df.head(n=20)
我该怎么办?任何帮助将不胜感激。
df= dd.DataFrame(cur.fetchall(),columns = headers)