应用错误收集

我通过执行以下代码创建了3个数据框。 sample.csv

id|code|name|Lname|mname
2|AA|BB|CC|DD|

sample1.csv

id|code|name|Lname|mname
1|A|B|C|D|

sample2.csv

id1|code1|name1|Lnam|mnam
3|AAA|BBB|CCC|DDD|

如果所有标题列2文件（sample1，sample2）的平均匹配率为85％，那么我必须使用模糊逻辑比较数据帧的标题。然后我必须打印两个文件是相同的。

example :
  sample1.csv vs sample2.csv  

+---------+--------+-----+
|f1_lab   |  f2_lab|score|
+---------+--------+-----+
| id      |   id1  |  80 |
| code    |  code1 |  89 |
| name    |   name1|  89 |
| Lname   |   Lnam |  89 |
| mname   |   mnam |  89 | 
+---------+--------+-----+

我的最终输出将是例如80+89+89+89+89/5=87.2的平均得分（平均得分）。

如果平均分数高于80，则必须打印输出sample1 and sample2 matched ,。

像那样，我必须将所有文件头与其他文件头进行比较。我需要识别所有匹配的文件。

请帮助我。

如何在pyspark中使用模糊匹配将df的标头与其他df标头进行比较？

0 个答案: