AWS Glue数据目录的头文件

时间:2019-01-15 15:24:16

标签: amazon-web-services amazon-s3 hiveql aws-glue

我在s3中有一些数据,我想使用AWS Glue进行爬网并将其存储在数据目录中。我的问题是数据本身没有标题行。而是有一个单独的头文件(“ header.csv”)。有什么方法可以告诉AWS Glue使用header.csv文件获取列名吗?否则,数据目录将列名称显示为“ col0”,“ col1”,...“ coln”。

即我有以下数据:

s3://bucket/data/animals/header.csv

"id","animaltype","age"

s3://bucket/data/animals/data.csv

"1","cat","5"
"2","dog","2"
"3","otter","7"

1 个答案:

答案 0 :(得分:1)

恐怕爬虫无法从另一个文件中获取标头信息。

但是您可以编写胶粘作业来重命名列。

  

df = dyf.toDF()
  oldColumns = df.schema.names
  newColumns =头文件中的#cols
  df = reduce(lambda df,idx:   df.withColumnRenamed(oldColumns [idx],newColumns [idx]),xrange(len(oldColumns)),df)