在数据集上应用转换spark

时间:2017-08-22 15:06:14

标签: java apache-spark spark-dataframe

我有一个json文件" currData),其中包含{" id":integer," url":String}格式的数据。我已将此文件加载到spark数据集中。现在我编写了一个函数String clean(String),它接受一个URL(String)作为参数,并返回一个干净的url版本(通过删除查询参数)。假设代码类似于currDataFrame = spSession.read().json(currData); 现在,对于currDataFrame中的每个url,我如何应用clean函数的逻辑并获取新的数据帧?我在网上搜索并且有一个地图功能来进行这样的转换,但是地图需要一个编码器?我可以提供什么作为数据集类型的编码器?感谢

currData的内容以及currDataFrame:{"id":"3713","url":"https://budref.xyz.com/browse/BR-972"}

使用(https://budref.xyz.com/browse/BR-972)调用clean会返回" https://budref.xyz.com/browse/"

我需要一个表达式,当应用于currDataFrame结果时 {"id":"3713","url":"https://budref.xyz.com/browse/"}

0 个答案:

没有答案