Question

我正在查询hive表，找出唯一列的最后一个值id。我在做如下

frame=sqlContext.sql("select max(id) from database.table")

当我做frame.show()

时

+------+
|   _c0|
+------+
|276308|
+------+

现在我希望将其作为lastval这样做我正在做

frame1=frame.map(lambda row: [str(c) for c in row]).collect()

lastval =''.join(frame1[0][0])

print lastval

276308

我得到了预期的结果，但我想知道有更好的方法吗？

Answer 1

IIUYC。

让我们准备一些数据：

pdf = pd.DataFrame({"id":[1,2,3]})
df = sqlContext.createDataFrame(pdf)
df.registerTempTable("tbl")
sqlContext.sql("select * from tbl").show()
+---+
| id|
+---+
|  1|
|  2|
|  3|
+---+

选择＆＃34;原样＆＃34;：

sqlContext.sql("select max(id) from tbl").show()
+-------+
|max(id)|
+-------+
|      3|
+-------+

选择＆＃34;漂亮＆＃34;来自Hive表：

sqlContext.sql("select max(id) as lastVal from tbl").show()
+-------+
|lastVal|
+-------+
|      3|
+-------+

选择＆＃34;漂亮＆＃34;来自Spark df：

from pyspark.sql import functions as F
df.select(F.max("id").alias("lastVal")).show()
+-------+
|lastVal|
+-------+
|      3|
+-------+

如果您希望将数据传递给纯Python以供进一步使用或分析，请按以下步骤操作：

lv = sqlContext.sql("select max(id) as lastVal from tbl").collect()
print(lv[0]["lastVal"])
3

lv = df.select(F.max("id").alias("lastVal")).collect()
print(lv[0]["lastVal"])
3

使用pyspark查找配置单元表的最后一个值

1 个答案: