我正在尝试找到一种方法来查找多个字符串之间的差异。到目前为止,我发现difflib的Differ.compare()函数最有用,它返回的信息如下:
from pyspark.sql import functions
df1 = df_realite.withColumn('id', functions.monotonically_increasing_id())
df2 = df_proba_classe_1.withColumn('id', functions.monotonically_increasing_id())
df1.join(df2, on='id').select('realite', 'probabilite'))
我想做的是能够比较许多字符串并查看它们的不同之处(因为我的数据具有许多相似的变化,但有微小的差异)。
有人可以推荐一种解决方法吗?感谢您抽出宝贵的时间阅读本文!