删除xls文件中的重复项

时间:2012-05-06 07:23:47

标签: list loops duplicates xls

我正在尝试编写一个python脚本,它能够获取xls文件中每行的内容,从中提取单词列表(使用rex具有特定模式),并将此列表与所有行中提取的所有列表进行比较在当前行之后直到文件结束。并删除具有相同列表的行。 请注意,两个列表中的单词可能是无序的,但它们的内容相同。

我感谢任何帮助。

1 个答案:

答案 0 :(得分:1)

此问题非常类似于从未排序的数组中删除类似的元素。您需要做的是根据与正则表达式匹配的单词数对所有行进行散列,然后在每个桶中进行相似性比较。

您也可以使代码具有可扩展性。

     buckets={}
     for row in rows:
          if bucket[row.length] is None:
               bucket[row.length]={}
          bucket[row.length].append(row)
      #now do your matching 
      for bucket in buckets:
          #match and delete.