Question

这是我需要帮助的地方，特别是＃3。

导入标记的数据
评估匹配词
使用与“标签数据”相似的单词更新标签数据

我有一组带标签的数据（例如100行），当一个新单词与现有行相似时（即，SimilarityScore> 75％），我想自动更新它。

我首先将标记的数据导入两个df。我用于计算和存储相似性得分的第一张df（labelled_data）和两列（这是我存储相似文本和相关得分的地方）。第二个df（dictionary_revised）是我要附加的数据框。这是我用来创建这两个df的代码。

#Read the labelled data
labelled_data = pd.read_csv('DictionaryV2.csv')
dictionary_revised = pd.read_csv('DictionaryV2.csv')

#Add two columns to labelled_data
labelled_data['SimilarText'] = ''
labelled_data['SimilarityScore'] = float()

接下来，我计算Word A和Word B的相似性，并使用SametimeTest和SameityScore更新labelled_data。可行，输出如下所示：

   QueryText  Subjectmatter    DateAdded    SimilarText     SimilarityScore
2   hr        HR & Benefits     1/1/2020    support         0.771284
4   pay       HR & Benefits     1/1/2020    check           0.829261

接下来，我创建了以下变量，以仅返回那些得分> 75％的变量。有效

score = labelled_data['SimilarityScore'] > 0.75

工程，这是示例输出

    QueryText         Subjectmatter      DateAdded      SimilarText    SimilarityScore
0   store             Shopping           1/1/2020        retail         0.730492
1   performance       Career & Jobs      1/1/2020        connecting     0.743287

接下来，我得到当前日期（因为我想知道何时计算SametimeScore）

import datetime
now = datetime.datetime.now()

最后，我尝试使用以下内容附加dictionary_revised df集。但这是行不通的。我尝试使用'results ='并且没有代码的'results ='部分。都不行。

for i in range(len(labelled_data[score])):  
    results = dictionary_revised.append({'QueryText': labelled_data['SimilarText'],
                            'Subjectmatter': labelled_data['Subjectmatter'],
                            'DateAdded': now.strftime('%Y-%m-%d')},ignore_index=True)

有什么建议吗？

熊猫数据框未附加

0 个答案: