这是我需要帮助的地方,特别是#3。
我有一组带标签的数据(例如100行),当一个新单词与现有行相似时(即,SimilarityScore> 75%),我想自动更新它。
我首先将标记的数据导入两个df。我用于计算和存储相似性得分的第一张df(labelled_data)和两列(这是我存储相似文本和相关得分的地方)。第二个df(dictionary_revised)是我要附加的数据框。这是我用来创建这两个df的代码。
#Read the labelled data
labelled_data = pd.read_csv('DictionaryV2.csv')
dictionary_revised = pd.read_csv('DictionaryV2.csv')
#Add two columns to labelled_data
labelled_data['SimilarText'] = ''
labelled_data['SimilarityScore'] = float()
接下来,我计算Word A和Word B的相似性,并使用SametimeTest和SameityScore更新labelled_data。可行,输出如下所示:
QueryText Subjectmatter DateAdded SimilarText SimilarityScore
2 hr HR & Benefits 1/1/2020 support 0.771284
4 pay HR & Benefits 1/1/2020 check 0.829261
接下来,我创建了以下变量,以仅返回那些得分> 75%的变量。有效
score = labelled_data['SimilarityScore'] > 0.75
工程,这是示例输出
QueryText Subjectmatter DateAdded SimilarText SimilarityScore
0 store Shopping 1/1/2020 retail 0.730492
1 performance Career & Jobs 1/1/2020 connecting 0.743287
接下来,我得到当前日期(因为我想知道何时计算SametimeScore)
import datetime
now = datetime.datetime.now()
最后,我尝试使用以下内容附加dictionary_revised df集。但这是行不通的。我尝试使用'results ='并且没有代码的'results ='部分。都不行。
for i in range(len(labelled_data[score])):
results = dictionary_revised.append({'QueryText': labelled_data['SimilarText'],
'Subjectmatter': labelled_data['Subjectmatter'],
'DateAdded': now.strftime('%Y-%m-%d')},ignore_index=True)
有什么建议吗?