在Apache Spark中自动预测连接条件

时间:2016-06-06 06:36:47

标签: scala apache-spark machine-learning apache-spark-mllib

我有两个数据集:

数据集1:

customerId,firstName,lastName
1,Georgi,Facello
2,Bezalel,Simmel
3,Parto,Bamford
4,Chirstian,Koblick
5,Kyoichi,Maliniak
6,Anneke,Preusig
7,Tzvetan,Zielinski
8,Saniya,Kalloufi
9,Sumant,Peac
10,Duangkaew,Piveteau

数据集2:

userId,fullName
101,Georgi Facello
102,Bezalel Simmel
103,Parto Bamford
104,Chirstian Koblick
105,Kyoichi Maliniak
106,Anneke Preusig
107,Tzvetan Zielinski
108,Saniya Kalloufi
109,Sumant Peac
110,Duangkaew Piveteau

两者都是csv文件,我也可以从这些文件中创建RDDDataframe(在scala中)。使用Spark MLLib(或其他机器学习算法),我们可以预测来自firstName + lastName的{​​{1}}可以与dataset 1的{​​{1}}结合使用吗?另外,我们还可以预测加入的fullName吗?

非常感谢任何帮助。

0 个答案:

没有答案