我试图查找数据集中的两列之间是否存在关系。我正在使用Fuzzywuzzy和partial_ratio来识别关键字列和“问题标题”列之间是否存在“匹配”。
关键字关键字列充满了带有空格分隔符的文章的元数据标签。我的代码工作正常,但是我想知道是否有更好的方法来做我想做的事情?
代码:
import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz
df.dropna(subset=['Keywords', 'Issue'], inplace=True)
df['Acc'] = df.apply(lambda rows: fuzz.partial_ratio(rows['Keywords'],rows['Issue']),axis = 1)
df[['Issue','Keywords','Len','Acc']].head(1)
这将返回以下数据帧:
| Issue | Keywords | Len | Acc |
|-------|-----------------------------------------------------------------------------------------------------|-----|-----|
| 0 | General information regarding proof of employm... Verification Employment calls Work Number VOE ... | 19 | 57 |
因此,“列”列中有19个关键字,比赛得分中有57个关键字。很酷,因此,还有其他方法可以识别是否使用了正确的“标签”,并且100%与“问题”列相关吗?