Question

我在s3中有一些数据，我想使用AWS Glue进行爬网并将其存储在数据目录中。我的问题是数据本身没有标题行。而是有一个单独的头文件（“ header.csv”）。有什么方法可以告诉AWS Glue使用header.csv文件获取列名吗？否则，数据目录将列名称显示为“ col0”，“ col1”，...“ coln”。

即我有以下数据：

s3：//bucket/data/animals/header.csv

"id","animaltype","age"

s3：//bucket/data/animals/data.csv

"1","cat","5"
"2","dog","2"
"3","otter","7"

Answer 1

恐怕爬虫无法从另一个文件中获取标头信息。

但是您可以编写胶粘作业来重命名列。

df = dyf.toDF（）
  oldColumns = df.schema.names
  newColumns =头文件中的#cols
  df = reduce（lambda df，idx：   df.withColumnRenamed（oldColumns [idx]，newColumns [idx]），xrange（len（oldColumns）），df）

AWS Glue数据目录的头文件

1 个答案: