我有一个数据集,其中收集了有关公共厕所建筑的信息。每个建筑物(数据集行)可以包含几个厕所(参见下面的示例数据表)
为了分析数据,我需要每个厕所作为单一的几何形状,具有女性是/否的属性:是/否。对我来说,确切地知道女厕所是否破损或是男厕都并不重要。
所以我尝试做的是复制我的数据集的每一行n次(n =列total_number_toilets的值)并在列female_toilets中随机插入k次'yes'(k =列female_toilets的值)并且i次'是'(i =列broken_toilets的值)在n个新行的列broken_toilets中。虽然目前插入了数字,但每列的数据类型都是字符串,因此在复制行的列中插入“是”而不是数字应该不会有问题。
为什么确切地知道女厕所是否破损并不重要,我只需要一个巨大的样本数据集来申请。
原帖:
total_number_toilets | female_toilets |broken_toilets
---------------------|-----------------|-------------------
5 | 2 | 1
新行:
total_number_toilets | female_toilets |broken_toilets
---------------------|-----------------|-------------------
1 | 'yes' | 'no'
1 | 'no' | 'yes'
1 | 'yes' | 'no'
1 | 'no' | 'no'
1 | 'no' | 'no'