如何在pandas数据集中构建一个短语包(和重写单词)

时间:2017-10-03 05:41:17

标签: python pandas dataframe

这是我的数据集

I love you baby
I love stackoverflow
I have stackoverflow account

我想要什么

I Love        2
stackoverflow 2
you           1
baby          1
I             1 # the other two already on "I love"
...

我想要的是,如果在数据帧中不止一个单词出现在我的短语中

1 个答案:

答案 0 :(得分:0)

我确信大熊猫没有为这种情况准备好的工具。

您需要执行算法: 在这种情况下,我可以考虑这样的事情:

  1. 将所有文本拆分为一个数组
  2. 在每行的末尾添加唯一的单词(如:end_of_line_01,end_of_line_02等) 所以在它之后你有这样的数组:
  3.   

    我,爱,你,宝贝,end_of_line_01,我,爱,stackoverflow,   end_of_line_02,I,have,stackoverflow,account,end_of_line_03

    1. 取前两个单词并在数组中搜索,如果这些单词以相同的顺序存在于数组中的任何其他位置。   一个。如果是,请保留多少时间的结果。并再试一次   湾如果不算第一个单词。 在此步骤结束时删除已采用的单词并将其添加到结果

    2. 重复第3步

    3. 删除您在最终结果中添加的所有唯一字词