比较csv的两列并在另一个csv中输出字符串相似比

时间:2016-04-22 20:05:39

标签: python pandas csv difflib sequencematcher

我是python编程的新手。我正在尝试使用具有两列字符串值的csv文件,并希望比较两列之间字符串的相似性比率。然后我想取值并在另一个文件中输出比率。

csv可能如下所示:

Column 1|Column 2 
tomato|tomatoe 
potato|potatao 
apple|appel 

我想要为每一行显示输出文件,第1列中的字符串与第2列的相似程度。我使用difflib输出比率得分。

这是我到目前为止的代码:

import csv
import difflib

f = open('test.csv')

csf_f = csv.reader(f)

row_a = []
row_b = []

for row in csf_f:
    row_a.append(row[0])
    row_b.append(row[1])

a = row_a
b = row_b

def similar(a, b):
    return difflib.SequenceMatcher(a, b).ratio()

match_ratio = similar(a, b)

match_list = []
for row in match_ratio:
    match_list.append(row)

with open("output.csv", "wb") as f:
    writer = csv.writer(f, delimiter=',')
    writer.writerows(match_list)

f.close()

我收到错误:

Traceback (most recent call last):
  File "comparison.py", line 24, in <module>
    for row in match_ratio:
TypeError: 'float' object is not iterable

我觉得我没有正确导入列列表并针对sequencematcher函数运行它。

5 个答案:

答案 0 :(得分:2)

您在这里设置的for循环需要类似数组的地方match_ratio,并根据您获得的错误来判断,这不是你有什么。您似乎错过了difflib.SequenceMatcher的第一个参数,该参数应该是None。请参见此处的6.3.1:https://docs.python.org/3/library/difflib.html

如果没有指定第一个参数,我认为您从0.0返回difflib.SequenceMatcher,然后尝试运行ratio。即使您更正了SequenceMatcher电话,我认为您仍然会尝试迭代ratio正在返回的单个浮点值。我认为您需要在循环中为您要比较的每组值调用SequenceMatcher

所以你最终会在你的函数中调用更多这样的调用:difflib.SequenceMatcher(None, a, b)。或者,如果您喜欢,因为这些是命名参数,您可以执行以下操作:difflib.SequenceMatcher(a=a, b=b)

答案 1 :(得分:2)

以下是使用pandas完成此操作的另一种方法:

  

请考虑您的csv数据是这样的:

Column 1,Column 2 
tomato,tomatoe 
potato,potatao 
apple,appel
  

<强> CODE

import pandas as pd
import difflib as diff
#Read the CSV
df = pd.read_csv('datac.csv')
#Create a new column 'diff' and get the result of comparision to it
df['diff'] = df.apply(lambda x: diff.SequenceMatcher(None, x[0].strip(), x[1].strip()).ratio(), axis=1) 
#Save the dataframe to CSV and you could also save it in other formats like excel, html etc
df.to_csv('outdata.csv',index=False)
  

<强>结果

Column 1,Column 2 ,diff
tomato,tomatoe ,0.923076923077
potato,potatao ,0.923076923077
apple,appel ,0.8

答案 2 :(得分:1)

您的示例文件看起来像包含标记标记。假设您实际上正在读取CSV文件,那么您得到的错误是因为match_ratio不是可迭代的数据类型,它是一个浮点数 - 函数的返回值:similar()。在您的代码中,函数调用必须包含在for循环中,以便为每个a,b字符串对调用它。这是我创建的一个工作示例,它消除了显式的for循环并改为使用列表解析:

import csv
from difflib import SequenceMatcher

path_in = 'csv1.csv'
path_out = 'csv2.csv'

with open(path_in, 'r') as csv_file_in:
    csv_reader = csv.reader(csv_file_in)
    col_headers = csv_reader.next()
    for row in csv_reader:
        results = [[row[0],
                    row[1],
                    SequenceMatcher(None, row[0], row[1]).ratio()]
                    for row in csv_reader]

with open(path_out, 'wb') as csv_file_out:
    col_headers.append('Ratio')
    out_rows = [col_headers] + results
    writer = csv.writer(csv_file_out, delimiter=',')
    writer.writerows(out_rows)

除了您收到的错误之外,您在实例化SequenceMatcher对象时可能也遇到了问题 - 它的第一个参数未在您的代码中指定。您可以在Python文档中的list comprehensionsSequenceMatcher上找到更多信息。祝你未来的Python编码好运。

答案 3 :(得分:1)

您收到该错误,因为记录行[0]或行[1]最可能包含NaN值。 尝试通过str(row [0])和str(row [1])

强制它们首先串起来

答案 4 :(得分:0)

您收到错误是因为您在字符串列表上运行SequenceMatcher,而不是在字符串本身上运行。当你这样做时,你会得到一个漂浮值,而不是我认为你期望的定量值列表。

如果我理解你要做什么,那么你就不需要先读取行。您可以在迭代行时找到差异比率。

import csv
import difflib

match_list = []
with open('test.csv') as f:
    csv_f = csv.reader(f)
    for row in csv_f:
        match_list.append([difflib.SequenceMatcher(a=row[0], b=row[1]).ratio()])

with open('output.csv', 'w') as f:
    writer = csv.writer(f, delimiter=',')
    writer.writerows(match_list)