我正在使用AWS Glue转换一组数据,该数据具有基于一列的值的多行。我正在尝试透视数据并减少行数。
我相信我可以为此使用Amazon Glue。但是,这是我第一次使用Glue。我正在努力寻找一种做到这一点的好方法。某些pySpark-extensions转换看起来很有希望(也许是“ Map”或“ Relationalize”)。有什么好办法?
例如:
primary_key|key|value
12345|is_male|1
12345|is_college_educated|0
到
primary_key|is_male|is_college_educated
12345|1|0