标签: apache-spark spark-dataframe
我目前使用databricks库将CSV文件加载到Dataframes中。
我正在寻找使用特定密钥对我加载的数据帧进行cogroup的最佳通用方法,因为cogroup操作仅适用于PairRDD。
我发现这篇文章为Dataframes实现了一个cogroup功能,但我想有一些不同的方法:
https://gist.github.com/ahoy-jon/b65754cde98cc48b9b38
你有没有遇到过这种情况?
感谢。