为记录链接问题建立ML模型

时间:2019-04-29 12:27:06

标签: azure machine-learning pyspark record-linkage

我的要求包括在Azure云上使用Pyspark实现机器学习算法。该模型必须链接来自两个包含财务数据的数据集的记录。我对进行学习非常陌生,我正在寻找解决该问题的最佳方法。

这些链接对我有用:

MICROSOFT DATACAMP

数据需要使用两个CSV数据源进行匹配。两者都具有可以映射但可能具有不同格式的字段(例如,第一个数据源中的日期格式为DDMMAAAA,第二个数据源中的日期字段为DD / MM / AAAA格式)。

最终数据集应包含无重复的实体和一个额外字段,该字段表示当前实体的状态,该字段是根据来自第二个数据源的相似行的状态计算得出的。

预先感谢您的帮助。

0 个答案:

没有答案