引用Pyspark DataFrame中的列

时间:2016-06-29 10:31:52

标签: python apache-spark pyspark spark-dataframe

假设我有一个单词列表,我转换为数据框

  -----
| word |
  -----
| cat  |
| bird |
| dog  |
| ...  |
  -----

我试着写一封信:

from pyspark.sql.functions import length

letter_count_df = words_df.select(length(words_df.word))

我知道这会导致只有一列的数据框。

如何在不使用letter_count_df的情况下引用alias的唯一列?

  -------------
| length(word) |
  -------------
|           3  |
|           4  |
|           3  |
|         ...  |
  -------------

1 个答案:

答案 0 :(得分:2)

姓名:

>>> letter_count_df.select(c)
DataFrame[length(word): int]

或col和name:

>>> from pyspark.sql.functions import *
>>> letter_count_df.select(c))

c为常数:

>>> c = "length(word)"

>>> c = letter_count_df.columns[0]