需要更快的方式列出项目中的所有数据集/表

时间:2016-08-11 21:34:26

标签: go google-bigquery

我正在创建一个需要了解BigQuery项目中存在的所有数据集/表的实用程序。我目前获取此信息的代码如下(使用Go API):

func populateExistingTableMap(service *bigquery.Service, cloudCtx context.Context, projectId string) (map[string]map[string]bool, error) {
    tableMap := map[string]map[string]bool{}

    call := service.Datasets.List(projectId)
    //call.Fields("datasets/datasetReference")

    if err := call.Pages(cloudCtx, func(page *bigquery.DatasetList) error {
        for _, v := range page.Datasets {

            if tableMap[v.DatasetReference.DatasetId] == nil {
                tableMap[v.DatasetReference.DatasetId] = map[string]bool{}
            }

            table_call := service.Tables.List(projectId, v.DatasetReference.DatasetId)
            //table_call.Fields("tables/tableReference")

            if err := table_call.Pages(cloudCtx, func(page *bigquery.TableList) error {
                for _, t := range page.Tables {
                    tableMap[v.DatasetReference.DatasetId][t.TableReference.TableId] = true
                }
                return nil 
            }); err != nil {
                return errors.New("Error Parsing Table")
            }
        }
        return nil 
    }); err != nil {
        return tableMap, err
    }

    return tableMap, nil
}

对于包含大约5000个数据集的项目,每个数据集最多包含10个表,此代码需要大约15分钟才能返回。是否有更快的方法来遍历所有现有数据集/表的名称?我已经尝试使用Fields方法仅返回我需要的字段(您可以看到上面注释掉的那些行),但这导致我的数据集只返回了50个(恰好是50个)。

有什么想法吗?

1 个答案:

答案 0 :(得分:2)

以下是我的代码的更新版本,具有并发性,可将处理时间从大约15分钟缩短为3分钟。

func populateExistingTableMap(service *bigquery.Service, cloudCtx context.Context, projectId string) (map[string]map[string]bool, error) {
    tableMap = map[string]map[string]bool{}

    call := service.Datasets.List(projectId)
    //call.Fields("datasets/datasetReference")

    if err := call.Pages(cloudCtx, func(page *bigquery.DatasetList) error {
        var wg sync.WaitGroup
        wg.Add(len(page.Datasets))
        for _, v := range page.Datasets {
            if tableMap[v.DatasetReference.DatasetId] == nil {
                tableMap[v.DatasetReference.DatasetId] = map[string]bool{}
            }

            go func(service *bigquery.Service, datasetID string, projectId string) {
                defer wg.Done()
                table_call := service.Tables.List(projectId, datasetID)
                //table_call.Fields("tables/tableReference")
                if err := table_call.Pages(cloudCtx, func(page *bigquery.TableList) error {
                    for _, t := range page.Tables {
                        tableMap[datasetID][t.TableReference.TableId] = true
                    }
                    return nil // NOTE: returning a non-nil error stops pagination.
                }); err != nil {
                    // TODO: Handle error.
                    fmt.Println(err)
                }
            }(service, v.DatasetReference.DatasetId, projectId)
        }

        wg.Wait()
        return nil // NOTE: returning a non-nil error stops pagination.
    }); err != nil {
        return tableMap, err
        // TODO: Handle error.
    }

    return tableMap, nil
}