尝试运行具有大量列的极其基本的AWS-glue爬网程序时出现“内部服务异常”

时间:2019-05-20 21:51:48

标签: parquet aws-glue

我正在尝试通过使S3实木复合地板文件可通过Athena进行查询来进行一些POC测试。

我从一个非常基本的东西开始:一个大约400行,大约800列的单个Parquet文件(我知道这是一个不寻常的存储系统;但是出于业务逻辑的原因,没有很多其他选择)

当我尝试在其上运行粘合搜寻器时,这似乎失败了,并出现一般的Internal Service Exception错误。

我尝试了相同的事情,但列数较少(其他所有内容都相同),而且低得可以看到,但确实有效。这是我不知道的某种限制吗?

任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:1)

这不是胶水限制,而是雅典娜限制。由于数据目录在内部使用Athena进行查询,因此应遵循Athena标准。

  

Athena表,视图,数据库和列名称仅允许使用下划线特殊字符

     

Athena表,视图,数据库和列名   除下划线(_)之外,不能包含特殊字符。

更多详细信息:https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html

答案 1 :(得分:0)

好的,这最终得以解决。事实证明,胶水不喜欢我的列名中的一些时髦字符(一些包含\ r)。我希望这个错误更加明显,但是对于以后的人们来说,简化列名并重试可能会有所帮助