Google Dataprep:将GCS文件名另存为列之一

时间:2018-08-27 15:13:42

标签: google-cloud-platform google-cloud-storage google-cloud-dataprep

我配置了一个Dataprep流。数据集是一个GCS文件夹(其中的所有文件)。目标是BigQuery表。

由于数据来自多个文件,因此我希望文件名与结果数据中的列相同。

有可能吗?

1 个答案:

答案 0 :(得分:1)

更新:现在有一个名为$ filepath的源元数据引用-如您所料,该文件将本地路径存储在Cloud Storage中(从顶级存储桶开始)。您可以在公式中使用它,也可以将其添加到新的公式列中,然后在其他配方步骤中执行所需的任何操作。 (如果您的数据源示例是在此功能之前创建的,则需要生成一个新示例才能在界面中看到它)

这些元数据字段的完整注释可在此处找到:https://cloud.google.com/dataprep/docs/html/Source-Metadata-References_136155148


原始答案

当前无法立即使用。如果您要手动将数据集与UNION合并,则可以先对其进行处理,以在源中添加一列,然后将其显示在合并的输出中。

如果您正在批量摄取文件,这没有帮助-但是有一个打开的功能请求已打开,您可以对其进行评论和/或关注更新: https://issuetracker.google.com/issues/74386476