我在apache spark中有2个数据帧。
df 1有节目编号和说明......数据看起来像
show_no |描述
a |这是mikey
b |唐纳德来了
c |玛丽和乔治回家
d |玛丽和乔治来到城镇
,第二个数据框有字符
字符
乔治
唐纳德
玛丽
妮
我需要搜索节目描述一,找出哪些节目特征...
最终输出应该看起来像
字符| showscharacterisin
乔治| C,d
唐纳德| b
玛丽| c.d
米妮|没有显示
这些数据集既人为又简单,但它表达了我试图实现的搜索功能。我基本上需要使用另一个数据帧中的值来搜索1个数据帧的文本。
这在sql server的udf中很容易做到,我基本上每次都会循环显示描述,并在描述中使用“包含”搜索返回show no。
我遇到的问题是我看不到使用数据框执行此操作。
答案 0 :(得分:0)
1)我认为您应该进一步细分第一个数据集,以便将show_no映射到描述中的每个单词。 例如,第一行可以像
一样细分show_no | descrip
a | this
a | is
a | mikey
2)如果需要,您可以从中过滤掉停用词。
3)在此之后,你可以加入" 字符"获得最终所需的输出。
希望这会有所帮助。 阿米特