标签: scala apache-spark
我有一个关于HDFS的非常庞大的客户数据和元数据,但是查看列名,我们无法确定哪一列包含哪些数据(例如客户名称,卡号,电话,电子邮件,地址)。
我也无法查看数据以检查数据类型。
我的任务是实现一个模型,我可以在屏蔽数据后找出每列包含的敏感数据的类型。我们对每种类型的敏感数据都有屏蔽规则。
如果我们只讨论名称,那么我如何找出哪个列包含客户名称。
答案 0 :(得分:0)
您好需要在spark中找到可以使用此
df.printSchema()