通过在Google Cloud Dataprep中跨多个列分布的值进行计数

时间:2018-08-29 17:20:10

标签: google-cloud-dataprep

我有一个比较复杂的数据转换任务,我无法在Google Cloud Data准备中解决。源数据是选民文件信息。 CSV具有10列(其中包括许多列),其中包含选民的选举参与历史记录。查看截图。简而言之,您最近投票过的选举包含在text_election_code_1中,第二次最近的选举在text_election_code_2中,依此类推。该单元的价值是选举本身的代码,即GN2016 = 2016年大选。

理想情况下,我想将其转换为查找矩阵,以回答诸如“ GN2016中ID#投票的选民是否投票?”之类的问题。和“在GN2012中总共有多少人投票?”

就目前的数据而言,按选举代码进行计数非常困难,因为“ GN2012”可能位于10列中的任何一列中。即GN2012下面的屏幕截图中的前2行位于第3列,第3行位于第2列。

我之前已经使用SQL完成了此操作,但是我不知道如何在cloud dataprep中执行此操作。谁能引导我正确的方向?

当前数据形状(屏幕截图中省略了其他P.I.I.列)

Example of election history columns

理想的数据形状(也许)

Ideal data shape for calculations

1 个答案:

答案 0 :(得分:1)

我决定反对“宽”桌,而赞成“长”桌。毕竟,使用“ unpivot”选项将列值转换为行很容易完成。这个例子非常有帮助:https://cloud.google.com/dataprep/docs/html/Analyze-across-Multiple-Columns_57344575