scala - 在Apache Spark中自动预测连接条件

我有两个数据集：

数据集1：

customerId,firstName,lastName
1,Georgi,Facello
2,Bezalel,Simmel
3,Parto,Bamford
4,Chirstian,Koblick
5,Kyoichi,Maliniak
6,Anneke,Preusig
7,Tzvetan,Zielinski
8,Saniya,Kalloufi
9,Sumant,Peac
10,Duangkaew,Piveteau

数据集2：

userId,fullName
101,Georgi Facello
102,Bezalel Simmel
103,Parto Bamford
104,Chirstian Koblick
105,Kyoichi Maliniak
106,Anneke Preusig
107,Tzvetan Zielinski
108,Saniya Kalloufi
109,Sumant Peac
110,Duangkaew Piveteau

两者都是csv文件，我也可以从这些文件中创建RDD或Dataframe（在scala中）。使用Spark MLLib（或其他机器学习算法），我们可以预测来自firstName + lastName的{{1}}可以与dataset 1的{{1}}结合使用吗？另外，我们还可以预测加入的fullName吗？

非常感谢任何帮助。

在Apache Spark中自动预测连接条件

0 个答案: