我有一个像这样的火花数据框:
fruit | name
--------------
fruit | apple
fruit | orange
fruit | mango
我想把它转换成这个:
fruit | string
----------------------------
fruit | apple, orange, mango
如何在Apache Spark中实现这一目标?
答案 0 :(得分:2)
查看> sapply(x, function(q) { grepl(q, y) })
a b c kt
[1,] TRUE TRUE FALSE FALSE
[2,] FALSE FALSE FALSE FALSE
[3,] FALSE FALSE TRUE FALSE
[4,] FALSE FALSE FALSE TRUE
[5,] FALSE FALSE FALSE FALSE
[6,] FALSE FALSE FALSE FALSE
^^^^ each column is a match result for each element of x
collect_list
它会将值分组并将它们的数组创建为新列。
如果您想要字符串,请参阅this问题(感谢@mtoto)