在AWS胶水中提供用户定义的列名

时间:2018-09-20 13:04:05

标签: parquet aws-glue

我有很多镶木地板文件。我需要通过Amazon Glue读取它们,然后为正在读取的表提供列名。

问题是实木复合地板已经具有供爬网程序读取的列名,并将其显示在表中。是否可以用胶水为这些镶木地板文件提供我的列名

1 个答案:

答案 0 :(得分:0)

要将检测到的列名替换为您自己的名称,您可以:

  • 在DynamicFrame上使用以下build in transformations之一
    • ApplyMapping-将声明性映射应用于此DynamicFrame并返回应用了那些映射的新DynamicFrame。 (源列,源类型,目标列,目标类型)
    • RenameField-重命名此DynamicFrame中的字段,并返回具有已重命名字段的新DynamicFrame。 (oldName-> newName)

有关更多详细信息,请参见ScalaPython ETL编程指南。

或者,如果您不需要连续地重新爬网数据,或者尝试手动更新数据目录字段名称(或者,如果这样做,则可以防止粘合爬网程序通过{{3 }}。

或者,如果您的需求更加分散,可以使用map转换将DynamicFrame中的每个DynamicRecord转换为您选择的新DynamicRecord。