我在s3中有一些数据,我想使用AWS Glue进行爬网并将其存储在数据目录中。我的问题是数据本身没有标题行。而是有一个单独的头文件(“ header.csv”)。有什么方法可以告诉AWS Glue使用header.csv文件获取列名吗?否则,数据目录将列名称显示为“ col0”,“ col1”,...“ coln”。
即我有以下数据:
s3://bucket/data/animals/header.csv
"id","animaltype","age"
s3://bucket/data/animals/data.csv
"1","cat","5"
"2","dog","2"
"3","otter","7"
答案 0 :(得分:1)
恐怕爬虫无法从另一个文件中获取标头信息。
但是您可以编写胶粘作业来重命名列。
df = dyf.toDF()
oldColumns = df.schema.names
newColumns =头文件中的#cols
df = reduce(lambda df,idx: df.withColumnRenamed(oldColumns [idx],newColumns [idx]),xrange(len(oldColumns)),df)