Question

我的df看起来像这样：

sent  token  token2
1     word1  word1
1     word2  word2
1     word3  word3
1     word4  word4
1     word5  word5
2     word6  word6

现在我想在列表中获得所有可能的令牌组合，如果它们具有sent的相同值。输出应该如下所示：

[1, word1, word2, n]
[1, word1, word3, n]
[1, word1, word4, n]
[1, word1, word5, n]
[1, word2, word3, n]
...

我尝试使用itertools和crosstab构造，但我似乎无法弄清楚如何为它们添加条件。

Answer 1

您可以在此处使用flex，然后对值进行排序，使用删除重复的值 merge和np.sort

drop_duplicates