标签: java apache-spark-dataset
我有一个要求,我必须调用一个外部API为数据集的每一行获取一些数据,然后根据从APU收到的响应,在该行中添加一列。
我当时正在考虑使用数据集的mapPartitions函数。我可以在该函数中调用API,但之后无法将相应的列添加到行中。
有人对如何做到这一点有任何指示吗? 如果mapPartitions在这种情况下不起作用,我也可以使用其他构造。
我也可以为此使用UDF,但在这种情况下,我必须为每行实例化HTTPClient,而我试图避免这种情况。
我