使用spark命名匹配

时间:2017-08-02 06:32:12

标签: scala apache-spark

我有一个关于HDFS的非常庞大的客户数据和元数据,但是查看列名,我们无法确定哪一列包含哪些数据(例如客户名称,卡号,电话,电子邮件,地址)。

我也无法查看数据以检查数据类型。

我的任务是实现一个模型,我可以在屏蔽数据后找出每列包含的敏感数据的类型。我们对每种类型的敏感数据都有屏蔽规则。

如果我们只讨论名称,那么我如何找出哪个列包含客户名称。

1 个答案:

答案 0 :(得分:0)

您好需要在spark中找到可以使用此

的列名
df.printSchema()