在google dataprep中准备稀疏数据集(每隔一行一次为空行)会导致输出为空

时间:2018-04-02 08:17:52

标签: google-cloud-dataprep

这是我在google dataprep中发现的另一个错误:

当使用稀疏数据集作为输入(每隔一行一个空行)时,google dataprep无法处理任何配方。

变换器页面显示了初始样本中的所有数据,并且所有配方变换都像往常一样显示。但是,在运行作业时,它会返回一个空集。

如果有人将采用新的randomw数据集样本而不是初始样本,它还会返回一个空数据集。

如果有人知道这个问题的细节,那将是非常有必要的!

干杯, BRAM

1 个答案:

答案 0 :(得分:0)

我试图重现这个问题但没有成功。但我仍然想分享我的逐步测试。希望有人会发现它很有用。

  1. 编写脚本以创建csv文件('sparse_names.csv'),每隔一行有一个空行。

    import csv
    
    with open('sparse_names.csv', 'w') as csvfile:
        fieldnames = ['id', 'first_name', 'last_name', 'other']
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    
        writer.writeheader()
        for i in range(10000000):
            if i%2==0:
                writer.writerow({'id': i, 'first_name': 'Baked', 'last_name': 'Beans', 'other': 'lululu'})
            else:
                writer.writerow({'id': '', 'first_name': '', 'last_name': '', 'other': ''})
    
  2. 将文件上传到GCS,并将其从GCS添加到Dataprep。

  3. 在初始样本中,我可以看到前658,831行。

    enter image description here

  4. 选择新样本。使用快速扫描获取随机样本,这是输出。

    enter image description here