两个字符串之间的相关性

时间:2018-12-20 02:56:09

标签: python python-3.x match correlation

我试图查找数据集中的两列之间是否存在关系。我正在使用Fuzzywuzzy和partial_ratio来识别关键字列和“问题标题”列之间是否存在“匹配”。

关键字关键字列充满了带有空格分隔符的文章的元数据标签。我的代码工作正常,但是我想知道是否有更好的方法来做我想做的事情?

代码:

import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz   

df.dropna(subset=['Keywords', 'Issue'], inplace=True)
df['Acc'] = df.apply(lambda rows: fuzz.partial_ratio(rows['Keywords'],rows['Issue']),axis = 1)
df[['Issue','Keywords','Len','Acc']].head(1)

这将返回以下数据帧:

| Issue | Keywords                                                                                            | Len | Acc |
|-------|-----------------------------------------------------------------------------------------------------|-----|-----|
| 0     | General information regarding proof of employm... Verification Employment calls Work Number VOE ... | 19  | 57  |

因此,“列”列中有19个关键字,比赛得分中有57个关键字。很酷,因此,还有其他方法可以识别是否使用了正确的“标签”,并且100%与“问题”列相关吗?

0 个答案:

没有答案