合并和求和类似的CSV条目

时间:2013-09-09 01:00:36

标签: python

说我的CSV文件如下:

  • 爱,像,200
  • 爱,像,50
  • 说,声称,30

其中数字代表在不同背景下共同出现的那些词的计数。

我想结合相似词的计数。所以我想输出类似的东西:

  • 爱,喜欢,250
  • 说,声称,30

我一直在四处寻找,但似乎我坚持这个简单的问题。

2 个答案:

答案 0 :(得分:1)

如果没有看到确切的CSV,很难知道什么是合适的。下面的代码假设最后一个标记是一个计数,并且它匹配最后一个逗号之前的所有内容。

# You'd need to replace the below with the appropriate code to open your file
file = """love, like, 200
love, like, 50
love, 20
say, claim, 30"""
file = file.split("\n")

words = {}
for line in file:
    word,count=line.rsplit(",",1)   # Note this uses String.rsplit() NOT String.split()
    words[word] = words.get(word,0) + int(count)
for word in words:
    print word,": ",words[word]

并输出:

say, claim :  30
love :  20
love, like :  250

答案 1 :(得分:1)

根据您的应用程序的具体情况,我认为我实际上建议您在此处使用计数器。 Counter是一个python集合模块,可以让您跟踪所有内容的数量。例如,在您的情况下,您可以迭代更新计数器对象。

例如:

from collections import Counter

with open("your_file.txt", "rb") as source:
    counter = Counter()
    for line in source:
        entry, count = line.rsplit(",", 1)
        counter[entry] += int(count)

此时,您可以将数据作为csv写回,或者继续使用它。