Python For循环数据(csv)

时间:2017-09-22 23:17:55

标签: python

我有这些数据:

http://prntscr.com/gojey0

继续向下。

如何使用python代码找到前20个最常见的平台?

我真的输了。我想过可能在for循环中列出并计算每一个?虽然看似错了..

3 个答案:

答案 0 :(得分:0)

使用pandas:http://pandas.pydata.org/

类似的东西:

SelectBoardCommand

答案 1 :(得分:0)

字典是收集这些信息的不错选择:

初始化一个空字典。

对于csv文件中的每一行:

  1. 获取平台专栏。
  2. 如果该平台尚未在dict中,请创建一个计数。
  3. 否则,如果它已经在dict中,则将其计数加1。
  4. 完成后,按计数值对字典进行排序并打印前20个条目。

答案 2 :(得分:0)

我会用pandas来读取csv文件

import pandas as pd
from collection import Counter
df = pd.read_csv('DATA.csv') # read the csv file into a dataframe *df*
# create counter object containing dictionary
# invoke the pandas groupby and count methods
d = Counter(dict(df.groupby(['Platform'])['Platform'].count()))

d将成为一个反对象&#34;包含&#34;形式为{<platform>:<number of counts in dataset>}

的字典

您可以按如下方式获得最常见的k个最常见的平台:

k = 20
d.most_common(k)
>>> [('<platform1>', count1),
    ('<platform2>', count2),
    ('<platform3>', count3),
    ('<platform4>', count4),
    ....

希望有所帮助。将来最好看一下您的数据的头部(前几行)或您到目前为止尝试过的代码......甚至是您正在使用的数据争用工具!