我正在研究预处理技术,其中我专注于两个表的属性之间的语义匹配。如何编写一个scala程序来进行这种语义匹配?
考虑我有两个表A和B
A具有属性(employee_id
,DOB
,salary
)
B具有属性(emp_id
,data_of_birth
,sal
)
我需要在两个表中找到最匹配的属性,以便我的输出表中不会出现重复的列(例如:emp_id和employee_id应该相似,并被视为单个cloumn)。 >
答案 0 :(得分:0)
Scala集合具有交集,它将获得两个集合的共同元素。
ex: collecationA.intersect(collectionB)
但是,如果您来自spark api,我们可以执行(与intersect相同)操作符进行架构级别比较
希望这会有所帮助!