我有两个数据集:
数据集1:
customerId,firstName,lastName
1,Georgi,Facello
2,Bezalel,Simmel
3,Parto,Bamford
4,Chirstian,Koblick
5,Kyoichi,Maliniak
6,Anneke,Preusig
7,Tzvetan,Zielinski
8,Saniya,Kalloufi
9,Sumant,Peac
10,Duangkaew,Piveteau
数据集2:
userId,fullName
101,Georgi Facello
102,Bezalel Simmel
103,Parto Bamford
104,Chirstian Koblick
105,Kyoichi Maliniak
106,Anneke Preusig
107,Tzvetan Zielinski
108,Saniya Kalloufi
109,Sumant Peac
110,Duangkaew Piveteau
两者都是csv文件,我也可以从这些文件中创建RDD
或Dataframe
(在scala中)。使用Spark MLLib(或其他机器学习算法),我们可以预测来自firstName + lastName
的{{1}}可以与dataset 1
的{{1}}结合使用吗?另外,我们还可以预测加入的fullName
吗?
非常感谢任何帮助。