我想创建一个在单元格中查找类似记录的程序。为此,我需要比较一行中的所有单元格,但是,我不知道如何正确地编写循环。
from difflib import SequenceMatcher
import pandas as pd
import csv
crimeData = open("crimeData.csv")
df = pd.read_csv('crimeData.csv')
df = df.set_index ('Address')
ratio = df.ratio()
for index, row in df.iterrows():
if row.ratio() > 0.9:
print (index)
difflib - 我想找到类似邮件的库。 ratio() - 显示它们的相似系数。
关于相似性发现的更多细节 - Find the similarity metric between two strings
请告诉我如何设置条件,比较单元格或如何找到连续写入的类似电子邮件。