Question

我试图查找数据集中的两列之间是否存在关系。我正在使用Fuzzywuzzy和partial_ratio来识别关键字列和“问题标题”列之间是否存在“匹配”。

关键字关键字列充满了带有空格分隔符的文章的元数据标签。我的代码工作正常，但是我想知道是否有更好的方法来做我想做的事情？

代码：

import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz   

df.dropna(subset=['Keywords', 'Issue'], inplace=True)
df['Acc'] = df.apply(lambda rows: fuzz.partial_ratio(rows['Keywords'],rows['Issue']),axis = 1)
df[['Issue','Keywords','Len','Acc']].head(1)

这将返回以下数据帧：

| Issue | Keywords                                                                                            | Len | Acc |
|-------|-----------------------------------------------------------------------------------------------------|-----|-----|
| 0     | General information regarding proof of employm... Verification Employment calls Work Number VOE ... | 19  | 57  |

因此，“列”列中有19个关键字，比赛得分中有57个关键字。很酷，因此，还有其他方法可以识别是否使用了正确的“标签”，并且100％与“问题”列相关吗？

两个字符串之间的相关性

0 个答案: