删除重复项时的索引值

时间:2018-07-06 01:56:46

标签: python dictionary indexing duplicates enumerate

所以我有一个pandas数据框,其中一列包含每个条目的文本文件名称列表。 我试图通过打开每个文本文件来编译所有文本数据后,找到所有重复项并使用唯一的文本数据重建一个单独的数据框 我可以删除所有重复项,只需简单地对长长的列表进行迭代,并将其设置为一组即可。 但是问题是,我想跟踪原始数据帧中每个条目的哪些文本文件名(重要:每个条目都有自己的文件夹以及文本文件,因此文本文件名不会在条目之间共享)与textdata < / p>

我想到了一个解决方案,我不知道这是否是计算效率方面最简单的方法,但我一直坚持让枚举部分起作用:

  1. 枚举类似列表的列表:

    [(0,[(0,'a'),(1,'b')]),(1,[(0,'c')]),(2,[(0,1), (1、2),(2、3)])]

  2. 记录与每个索引关联的值

  3. 使用以上值作为键并使用索引作为值来构建字典

当我尝试访问枚举值时(我知道,对于循环很糟糕):

 new SparkConf()
   //all of your other settings
   .set("spark.mongodb.input.partitionerOptions.partitionKey", "h")

即使项目是列表,我也无法在第二行使用'int'对象

同样,要求的是解决该问题的更好的常规解决方案,或者提出一种访问枚举的更好的解决方案

谢谢

编辑:一个更好的例子:

for item in test:
    for a,outer in item:
        for b,inner in outer:
            print (a,b,inner)

等...

0 个答案:

没有答案