根据字典熊猫数据框中的值分配索引

时间:2021-05-01 19:01:17

标签: pandas dataframe dictionary indexing assign

我有一个包含评论者和评论的数据框,我在其上执行主题建模。由于模型的原因,我不得不将所有评论转换为一个大的句子列表。我对它进行了聚类。现在,我想为每个评论者分配一个集群。

我有两个数据框: enter image description here one looks like this

第一个是原始数据帧,第二个是聚类后的输出。 我有一本字典,以作者的索引为键,以该人评论的评论数(超过 3 个字)作为值。现在我想为每个评论者分配一个集群,但我不确定如何,因为索引显然不再匹配了。所以我的问题是:如何根据字典中的值分配索引。

1 个答案:

答案 0 :(得分:0)

如果您能提供一个更完整的示例,其中包含您从哪里开始、在哪里结束以及您想要获得的输出的确切字符串,这将有所帮助。看起来 sentencetext 是相同的,不包括括号。如果是这种情况,那么您可以将其用作它们的关键。通常,该函数应该保持顺序或允许您传递一些附加信息,以便您可以将其重新加入。检查聚类函数的文档。如果它不这样做,那么它至少应该在将文本数组转换为字符串后,将您输入的可以用作键的句子还给您:

df1.merge(df2[[‘sentence’, ‘cluster_id’]],
          left_on=[‘text’], right_on=[‘sentence’], how=‘left’)

如果作者有多个句子,情况会更复杂。在这些情况下,不同的句子可能属于不同的集群。它仍然是可连接的,但您需要考虑如何处理此类情况。