我在AWS Glue控制台中创建了一个开发端点,现在我可以访问gluepyspark控制台中的SparkContext和SQLContext。
如何访问目录并列出所有数据库和表?通常的sqlContext.sql("show tables").show()
不起作用。
CatalogConnection Class可能会有所帮助,但我不知道它是哪个包。我尝试从awsglue.context导入并没有成功。
答案 0 :(得分:5)
我花了几个小时试图找到有关CatalogConnection类的一些信息,但没有找到任何东西。 (即使在aws-glue-lib存储库https://github.com/awslabs/aws-glue-libs)
在我的情况下,我需要在Glue Job Script控制台中使用表名
最后,我使用了boto库并使用Glue客户端检索了数据库和表名:
import boto3
client = boto3.client('glue',region_name='us-east-1')
responseGetDatabases = client.get_databases()
databaseList = responseGetDatabases['DatabaseList']
for databaseDict in databaseList:
databaseName = databaseDict['Name']
print '\ndatabaseName: ' + databaseName
responseGetTables = client.get_tables( DatabaseName = databaseName )
tableList = responseGetTables['TableList']
for tableDict in tableList:
tableName = tableDict['Name']
print '\n-- tableName: '+tableName
重要的是正确设置区域
参考: get_databases - http://boto3.readthedocs.io/en/latest/reference/services/glue.html#Glue.Client.get_databases
get_tables - http://boto3.readthedocs.io/en/latest/reference/services/glue.html#Glue.Client.get_tables
答案 1 :(得分:2)
boto3 api还支持分页,因此您可以改用以下内容:
import boto3
glue = boto3.client('glue')
paginator = glue.get_paginator('get_tables')
page_iterator = paginator.paginate(
DatabaseName='database_name'
)
for page in page_iterator:
print(page['TableList'])
这样,您就不必麻烦while循环或下一个标记。
答案 2 :(得分:1)
胶水每个响应返回一页。如果您有100多个表,请确保使用NextToken
来检索所有表。
def get_glue_tables(database=None):
next_token = ""
while True:
response = glue_client.get_tables(
DatabaseName=database,
NextToken=next_token
)
for table in response.get('TableList'):
print(table.get('Name'))
next_token = response.get('NextToken')
if next_token is None:
break