列和行与另一列中的公共值串联

时间:2018-06-26 06:52:46

标签: python pandas pandas-groupby

在下表中,我想将列Tri_gram_sentsValue连接在一起,然后将列sentence中具有相同编号的所有行连接起来。

   Tri_gram_sents                   Value          sentence
  (('<s>', '<s>'), 'ABC')          0.161681         1
  (('<s>', 'ABC'), 'ABC')          0.472973         1
  (('ABC', 'ABC'), 'ABC')          0.305732         1
  (('ABC', 'ABC'), 'ABC')          0.005655         1
  (('ABC', 'ABC'), '</s>')         0.434783         1
  (('ABC', '</s>'), '</s>')        0.008547         1
  (('<s>', '<s>'), 'DEF')          0.111111         2
  (('<s>', 'DEF'), 'DEF')          0.039474         2
  (('DEF', 'DEF'), 'DEF')          0.207317         2
  (('DEF', 'DEF'), 'DEF')          0.074803         2
  (('DEF', 'DEF'), '</s>')         0.037940         2
  (('DEF', '</s>'), '</s>')        0.033163         2
  (('<s>', '<s>'), 'GHI')          0.250000         3
  (('<s>', 'GHI'), 'GHI')          0.103316         3
  (('GHI', 'GHI'), 'GHI')          0.024155         3
  (('GHI', 'GHI'), '</s>')         0.028302         3
  (('GHI', '</s>'), '</s>')        0.117647         3    `

对于上面的行集,我将在另一个表中总共获得3行,并且我的预期输出如下:

(('<s>', '<s>'), 'ABC') 0.161681 (('<s>', 'ABC'), 'ABC') 0.472973 (('ABC', 'ABC'), 'ABC') 0.305732 (('ABC', 'ABC'), 'ABC') 0.005655 (('ABC', 'ABC'), '</s>') 0.434783 (('ABC', '</s>'), '</s>') 0.008547
(('<s>', '<s>'), 'DEF') 0.111111 (('<s>', 'DEF'), 'DEF') 0.039474 (('DEF', 'DEF'), 'DEF') 0.207317 (('DEF', 'DEF'), 'DEF') 0.074803 (('DEF', 'DEF'), '</s>') 0.037940 (('DEF', '</s>'), '</s>') 0.033163
(('<s>', '<s>'), 'GHI') 0.250000 (('<s>', 'GHI'), 'GHI') 0.103316 (('GHI', 'GHI'), 'GHI') 0.024155 (('GHI', 'GHI'), '</s>') 0.028302 (('GHI', '</s>'), '</s>') 0.117647

1 个答案:

答案 0 :(得分:2)

您可以使用while True: reply = input('Enter text:') if reply == 'stop': break elif not reply.isdigit(): print('Bad!' * 8) else: num = int(reply) if num < 20: print('low') else: print(num ** 2) print('Bye') groupby创建预期的输出。一种方法是从列jointo_join创建列Tri_gram_sents,然后Value创建此列:

agg

或者您可以在一行中完成所有操作,而无需使用df['to_join'] = df['Tri_gram_sents'] + ' ' + df['Value'].astype(str) ser_output = df.groupby('sentence')['to_join'].agg(' '.join) 创建该列:

apply

您将获得ser_output = (df.groupby('sentence').apply( lambda df_g: ' '.join(df_g['Tri_gram_sents']+' '+df_g['Value'].astype(str))))

ser_output

第一个元素的外观符合预期:

sentence
1    (('<s>', '<s>'), 'ABC') 0.161681 (('<s>', 'ABC...
2    (('<s>', '<s>'), 'DEF') 0.111111 (('<s>', 'DEF...
...