标签: apache-spark dataframe aws-lambda rdd user-defined-functions
我想获取Spark数据帧的每一行并通过微服务处理数据,该微服务返回一个新值(列表),然后我可以将其添加为新列。由于数据帧将同时处理,我的想法是将其构建为UDF,然后调用可动态扩展的amazon lambda微服务。
此架构是否可行或之前已完成?如果这是推荐的方法,该怎么做?