使用AWS Glue进行爬网时忽略“ NAN”值

时间:2019-07-22 21:02:59

标签: amazon-athena aws-glue

我创建了一个搜寻器,以从CSV文件创建表格。但是,在类型float的列中有一些nan值。结果,该列被分配了string的数据类型。

我试图更改数据类型。但是,由于该表涉及分区,因此将需要删除所有分区(大约50个)并创建它们。由于aws-athena不支持基于范围的表达式来删除分区,因此这是一项繁琐的任务。

# Supported
ALTER TABLE orders DROP PARTITION (col1 = 'abc', col2 = 'def');

# Not Supported
# Query wrote for dropping all partitions
ALTER TABLE orders DROP PARTITION (col1 != '', col2 = '');

是否可以做任何配置来排除考虑nan值以确定列的数据类型?

或者还有其他简单的方法可以更改列的数据类型吗?可以通过AWS-Athena和AWS-Glue的界面。

注意:有100多个列需要进行此类更改。 谢谢。

0 个答案:

没有答案