使用其他数据框或RDD搜索数据框

时间:2016-05-31 18:03:19

标签: scala apache-spark dataframe rdd

我在apache spark中有2个数据帧。

df 1有节目编号和说明......数据看起来像

show_no |描述
a |这是mikey
b |唐纳德来了 c |玛丽和乔治回家
d |玛丽和乔治来到城镇

,第二个数据框有字符

字符
乔治
唐纳德
玛丽 妮

我需要搜索节目描述一,找出哪些节目特征...

最终输出应该看起来像

字符| showscharacterisin
乔治| C,d
唐纳德| b
玛丽| c.d
米妮|没有显示

这些数据集既人为又简单,但它表达了我试图实现的搜索功能。我基本上需要使用另一个数据帧中的值来搜索1个数据帧的文本。

这在sql server的udf中很容易做到,我基本上每次都会循环显示描述,并在描述中使用“包含”搜索返回show no。

我遇到的问题是我看不到使用数据框执行此操作。

1 个答案:

答案 0 :(得分:0)

1)我认为您应该进一步细分第一个数据集,以便将show_no映射到描述中的每个单词。 例如,第一行可以像

一样细分
show_no | descrip
a | this
a | is 
a | mikey

2)如果需要,您可以从中过滤掉停用词。

3)在此之后,你可以加入" 字符"获得最终所需的输出。

希望这会有所帮助。 阿米特