我正在尝试进一步分析通过Google表单收到的调查。因此,这就是我的CSV的外观(有更多列,但出于这个示例的缘故,我只显示其中一个):
Parks and Trails| Playgrounds
Parks and Trails| Outdoor/Indoor Aquatic Facilities| Community Events and Festivals| Park
Parks and Trails| Art Class, Event, Concert, Exhibit or Performance| Sports Facilities
如您所见,每一行都有多个选择的选项。现在,我知道我可以像一个计数图一样查看每个选项被选中的实例数,但是它们都需要放在一个列表中,然后我需要用“ |”将其拆分。但是我不能这样做,因为它们在不同的行中对吗?
所以,现在我正在努力进行分析,我认为我必须伪代码,但是我真的不确定如何去做,因为pd.get_dummies()将基于整行伪代码。因此,“公园和小径|游乐场”将成为一个虚拟变量,而“公园和小径|室外/室内水上设施|社区活动和节日|公园”将成为另一个虚拟变量。
那么,我应该怎么做呢?
提前谢谢!