我有一个类似的数据集,
S.No Country Budget Technology
1 Israel 100 javascript,css,html
2 United States 450 python,css3,database
3 Australia 300 javascript,angular,node
4 Russia 250 javascript,php,python
5 Israel 700 python, php
. . . .
. . . .
我已经对技术专栏进行了标记,并计算了最受欢迎的技术。我也计算了预算最高的国家。
现在,我正在尝试找到技术的组合..就像,Javascript正在被使用哪种技术更常见?由于我对数据集进行了标记并将其拆分,因此我无法重新组合并将其用于此目的。
我想要计算,Javascript最常使用css3然后用html然后用节点等等(仅举例)。有办法吗? 另外,我必须看看哪些国家更频繁地使用哪种技术?比如,在美国使用Python时,在澳大利亚,以色列,俄罗斯使用的JavaScript更多。这应该根据计数来计算。
答案 0 :(得分:1)
我试过这个并且它有效。您只需要检查字符串是否包含特定的字符集。这将为您提供哪些国家/地区正在使用特定技术。请评论您还需要什么,我会帮助您。 :
from collections import Counter
df['Technology'] = df['Technology'].apply(lambda x: Counter(x.split(',')))
print(df['Technology'])
>>> df['Technology']
0 {u'javascript': 1, u'html': 1, u'css': 1}
1 {u'node': 1, u'javascript': 1, u'angular': 1}
2 {u'python': 1, u'javascript': 1, u'php': 1}
答案 1 :(得分:1)
您可以使用字典。迭代您的数据集检查是否提到了javascript。这样,对于每一项技术增量,它都会反击。因此,您将获得一个javascript及其频率提及的技术词典。
答案 2 :(得分:1)
IIUC:
这告诉你使用和不使用js的其他技术
df.Technology.str.get_dummies(',').groupby('javascript').sum()
php angular css css3 database html node php python
javascript
1 0 1 1 0 0 1 1 1 1
0 1 0 0 1 1 0 0 0 2