熊猫数据框未附加

时间:2020-04-25 17:44:24

标签: python pandas dataframe

这是我需要帮助的地方,特别是#3。

  1. 导入标记的数据
  2. 评估匹配词
  3. 使用与“标签数据”相似的单词更新标签数据

我有一组带标签的数据(例如100行),当一个新单词与现有行相似时(即,SimilarityScore> 75%),我想自动更新它。

我首先将标记的数据导入两个df。我用于计算和存储相似性得分的第一张df(labelled_data)和两列(这是我存储相似文本和相关得分的地方)。第二个df(dictionary_revised)是我要附加的数据框。这是我用来创建这两个df的代码。

#Read the labelled data
labelled_data = pd.read_csv('DictionaryV2.csv')
dictionary_revised = pd.read_csv('DictionaryV2.csv')

#Add two columns to labelled_data
labelled_data['SimilarText'] = ''
labelled_data['SimilarityScore'] = float()

接下来,我计算Word A和Word B的相似性,并使用SametimeTest和SameityScore更新labelled_data。可行,输出如下所示:

   QueryText  Subjectmatter    DateAdded    SimilarText     SimilarityScore
2   hr        HR & Benefits     1/1/2020    support         0.771284
4   pay       HR & Benefits     1/1/2020    check           0.829261

接下来,我创建了以下变量,以仅返回那些得分> 75%的变量。有效

score = labelled_data['SimilarityScore'] > 0.75

工程,这是示例输出

    QueryText         Subjectmatter      DateAdded      SimilarText    SimilarityScore
0   store             Shopping           1/1/2020        retail         0.730492
1   performance       Career & Jobs      1/1/2020        connecting     0.743287

接下来,我得到当前日期(因为我想知道何时计算SametimeScore)

import datetime
now = datetime.datetime.now()

最后,我尝试使用以下内容附加dictionary_revised df集。但这是行不通的。我尝试使用'results ='并且没有代码的'results ='部分。都不行。

for i in range(len(labelled_data[score])):  
    results = dictionary_revised.append({'QueryText': labelled_data['SimilarText'],
                            'Subjectmatter': labelled_data['Subjectmatter'],
                            'DateAdded': now.strftime('%Y-%m-%d')},ignore_index=True)

有什么建议吗?

0 个答案:

没有答案