DataPrep:访问源文件名

时间:2018-03-09 01:47:33

标签: google-cloud-platform google-cloud-dataprep

有没有办法创建一个包含创建每一行的源文件名的列?

用例:我想跟踪GCS存储桶中的哪个文件导致在结果数据集中创建哪一行。我想对特定GCS存储桶中包含的文件进行预定转换。

我查看了GCP上的“metadata文章”,但对我的用例来说却毫无用处。

更新:我在Google上打开了feature request

1 个答案:

答案 0 :(得分:0)

虽然他们尚未解决该问题,但这是上周更新的一部分。

现在有一个名为$filepath的源元数据引用-正如您所期望的,该引用将文件的本地路径存储在Cloud Storage中(从顶级存储桶开始)。您可以在公式中使用它,也可以将其添加到新的公式列中,然后在其他配方步骤中执行所需的任何操作。

有一些警告,例如,它没有为BigQuery源返回值,也没有通过pivotjoinunnest保留。 。 。但是它可以方便地覆盖绝大多数用例,在其他情况下,您只需要在某些破坏性转换之前实现它即可。

注意:如果您的数据源示例是在此功能之前创建的,则需要生成一个新示例才能在界面中看到它(而不是仅NULL值)。

这些元数据字段的完整注释可在此处找到:https://cloud.google.com/dataprep/docs/html/Source-Metadata-References_136155148