Question

我有一个关于HDFS的非常庞大的客户数据和元数据，但是查看列名，我们无法确定哪一列包含哪些数据（例如客户名称，卡号，电话，电子邮件，地址）。

我也无法查看数据以检查数据类型。

我的任务是实现一个模型，我可以在屏蔽数据后找出每列包含的敏感数据的类型。我们对每种类型的敏感数据都有屏蔽规则。

如果我们只讨论名称，那么我如何找出哪个列包含客户名称。

Answer 1

您好需要在spark中找到可以使用此

的列名

df.printSchema()