Question

我有一个包含评论者和评论的数据框，我在其上执行主题建模。由于模型的原因，我不得不将所有评论转换为一个大的句子列表。我对它进行了聚类。现在，我想为每个评论者分配一个集群。

我有两个数据框：

第一个是原始数据帧，第二个是聚类后的输出。我有一本字典，以作者的索引为键，以该人评论的评论数（超过 3 个字）作为值。现在我想为每个评论者分配一个集群，但我不确定如何，因为索引显然不再匹配了。所以我的问题是：如何根据字典中的值分配索引。

Answer 1

如果您能提供一个更完整的示例，其中包含您从哪里开始、在哪里结束以及您想要获得的输出的确切字符串，这将有所帮助。看起来 sentence 和 text 是相同的，不包括括号。如果是这种情况，那么您可以将其用作它们的关键。通常，该函数应该保持顺序或允许您传递一些附加信息，以便您可以将其重新加入。检查聚类函数的文档。如果它不这样做，那么它至少应该在将文本数组转换为字符串后，将您输入的可以用作键的句子还给您：

df1.merge(df2[[‘sentence’, ‘cluster_id’]],
          left_on=[‘text’], right_on=[‘sentence’], how=‘left’)

如果作者有多个句子，情况会更复杂。在这些情况下，不同的句子可能属于不同的集群。它仍然是可连接的，但您需要考虑如何处理此类情况。

根据字典熊猫数据框中的值分配索引

1 个答案: