我有一个json文件" currData),其中包含{" id":integer," url":String}格式的数据。我已将此文件加载到spark数据集中。现在我编写了一个函数String clean(String),它接受一个URL(String)作为参数,并返回一个干净的url版本(通过删除查询参数)。假设代码类似于currDataFrame = spSession.read().json(currData);
现在,对于currDataFrame中的每个url,我如何应用clean函数的逻辑并获取新的数据帧?我在网上搜索并且有一个地图功能来进行这样的转换,但是地图需要一个编码器?我可以提供什么作为数据集类型的编码器?感谢
currData的内容以及currDataFrame:{"id":"3713","url":"https://budref.xyz.com/browse/BR-972"}
使用(https://budref.xyz.com/browse/BR-972)调用clean会返回" https://budref.xyz.com/browse/"
我需要一个表达式,当应用于currDataFrame结果时
{"id":"3713","url":"https://budref.xyz.com/browse/"}