Pandas DataFrame到Hive查询插入

时间:2017-11-17 08:42:11

标签: python pandas hadoop hive hiveql

我的问题是,是否有一种方法可以生成一个带有insert语句的HiveQL,其中包含X列和Y行,例如来自Pandas' DataFrame对象:

query = "INSERT INTO %s SELECT %s, %s, %s, %s, %s, %s, %s from " % (
    table_name, column_names[0], column_names[1], column_names[2], column_names[3], column_names[4], column_names[5], column_names[6])

我有以下数据框作为示例:

  metric predict_date         value        y_date      x_date  ... (many columns) 
0  sales   2017-10-01  7.539010e+06   2016-06-01   2017-09-01
1  sales   2017-11-01  8.364379e+06   2016-07-01   2017-09-01
2  sales   2017-12-01  9.533355e+06   2016-08-01   2017-09-01
.
.
.
(many rows)

这里的用例就是构建查询。

注意:

  • 熊猫' to_sql()实际上写的是我不想要的SQL用例。
  • 我相信Spark是一个选项,但有一种快速简便的方法来生成这个,因为设置Spark集群需要时间。 : - )

0 个答案:

没有答案