从XSD而不是使用Craw推断AWS Glue数据目录架构

时间:2018-09-19 11:22:55

标签: xsd aws-glue

是否可以使用XSD文件来推断AWS Glue数据目录的架构?

使用搜寻器猜测XML文件的模式可能很容易出错。是否可以直接使用Glue中的XSD文件在数据目录中创建表定义?

1 个答案:

答案 0 :(得分:0)

Glue Crawlers不支持基于模式定义创建数据目录表,而是旨在对数据进行爬网并尽可能地推断模式。

不幸的是,您的下一个选择是考虑使用数据目录API创建基于XSD文件的架构。这种方法的简便性(或不简单)取决于XML文件中定义的数据类型的复杂性。

通过允许搜寻器从测试数据推断结果并手动调整任何不正确的数据类型,可以相对轻松地测试这种方法。

拥有可用的架构定义时,另一种方法可以是直接使用Spark API,根据您的架构定义创建Spark Schema类型,然后将其提供给DataFrameReader(前提是它支持XML),以便Spark可以使用提供的模式读取源XML,以应用适当的数据类型。有关详细信息,请参见DataFrameReader.schema(...)