所以我有一个pandas数据框,其中一列包含每个条目的文本文件名称列表。 我试图通过打开每个文本文件来编译所有文本数据后,找到所有重复项并使用唯一的文本数据重建一个单独的数据框 我可以删除所有重复项,只需简单地对长长的列表进行迭代,并将其设置为一组即可。 但是问题是,我想跟踪原始数据帧中每个条目的哪些文本文件名(重要:每个条目都有自己的文件夹以及文本文件,因此文本文件名不会在条目之间共享)与textdata < / p>
我想到了一个解决方案,我不知道这是否是计算效率方面最简单的方法,但我一直坚持让枚举部分起作用:
枚举类似列表的列表:
[(0,[(0,'a'),(1,'b')]),(1,[(0,'c')]),(2,[(0,1), (1、2),(2、3)])]
记录与每个索引关联的值
当我尝试访问枚举值时(我知道,对于循环很糟糕):
new SparkConf()
//all of your other settings
.set("spark.mongodb.input.partitionerOptions.partitionKey", "h")
即使项目是列表,我也无法在第二行使用'int'对象
同样,要求的是解决该问题的更好的常规解决方案,或者提出一种访问枚举的更好的解决方案
谢谢
编辑:一个更好的例子:
for item in test:
for a,outer in item:
for b,inner in outer:
print (a,b,inner)
等...