这是我的数据集
I love you baby
I love stackoverflow
I have stackoverflow account
我想要什么
I Love 2
stackoverflow 2
you 1
baby 1
I 1 # the other two already on "I love"
...
我想要的是,如果在数据帧中不止一个单词出现在我的短语中
答案 0 :(得分:0)
我确信大熊猫没有为这种情况准备好的工具。
您需要执行算法: 在这种情况下,我可以考虑这样的事情:
我,爱,你,宝贝,end_of_line_01,我,爱,stackoverflow, end_of_line_02,I,have,stackoverflow,account,end_of_line_03
取前两个单词并在数组中搜索,如果这些单词以相同的顺序存在于数组中的任何其他位置。 一个。如果是,请保留多少时间的结果。并再试一次 湾如果不算第一个单词。 在此步骤结束时删除已采用的单词并将其添加到结果
重复第3步
删除您在最终结果中添加的所有唯一字词