数据集中经常出现哪些单词?

时间:2018-04-17 06:22:16

标签: python python-3.x python-2.7 pandas

我有一个类似的数据集,

S.No       Country            Budget                      Technology

 1     Israel                   100                 javascript,css,html 
 2     United States            450               python,css3,database 
 3     Australia                300               javascript,angular,node 
 4     Russia                   250               javascript,php,python 
 5     Israel                   700                    python, php
 .       .                       .                          .
 .       .                       .                          .

我已经对技术专栏进行了标记,并计算了最受欢迎的技术。我也计算了预算最高的国家。

现在,我正在尝试找到技术的组合..就像,Javascript正在被使用哪种技术更常见?由于我对数据集进行了标记并将其拆分,因此我无法重新组合并将其用于此目的。

我想要计算,Javascript最常使用css3然后用html然后用节点等等(仅举例)。有办法吗? 另外,我必须看看哪些国家更频繁地使用哪种技术?比如,在美国使用Python时,在澳大利亚,以色列,俄罗斯使用的JavaScript更多。这应该根据计数来计算。

3 个答案:

答案 0 :(得分:1)

我试过这个并且它有效。您只需要检查字符串是否包含特定的字符集。这将为您提供哪些国家/地区正在使用特定技术。请评论您还需要什么,我会帮助您。 :

from collections import Counter
df['Technology'] = df['Technology'].apply(lambda x: Counter(x.split(',')))
print(df['Technology'])
>>> df['Technology']
0        {u'javascript': 1, u'html': 1, u'css': 1}
1    {u'node': 1, u'javascript': 1, u'angular': 1}
2      {u'python': 1, u'javascript': 1, u'php': 1}

答案 1 :(得分:1)

您可以使用字典。迭代您的数据集检查是否提到了javascript。这样,对于每一项技术增量,它都会反击。因此,您将获得一个javascript及其频率提及的技术词典。

答案 2 :(得分:1)

IIUC:
这告诉你使用和不使用js的其他技术

df.Technology.str.get_dummies(',').groupby('javascript').sum()

             php  angular  css  css3  database  html  node  php  python
javascript                                                             
1              0        1    1     0         0     1     1    1       1
0              1        0    0     1         1     0     0    0       2