使用AWS Glue(python)从Redis提取数据

时间:2018-08-21 10:24:22

标签: redis pyspark aws-glue

我正在尝试使用AWS Glue(python)从Redis获取数据。我想知道如何从Spark上下文连接到Redis。 Redis也托管在同一AWS区域

我在redis网站上看到了代码。找不到Pyspark的代码示例。

import com.redislabs.provider.redis._

...

sc = new SparkContext(new SparkConf()
      .setMaster("local")
      .setAppName("myApp")

      // initial redis host - can be any node in cluster mode
      .set("redis.host", "localhost")

      // initial redis port
      .set("redis.port", "6379")

      // optional redis AUTH password
      .set("redis.auth", "")
  )

是否可以从pyspark连接到Redis?

1 个答案:

答案 0 :(得分:0)

问:AWS Glue支持哪些数据源?

AWS Glue原生支持存储在Amazon Aurora,Amazon RDS for MySQL,Amazon RDS for Oracle,Amazon RDS for PostgreSQL,Amazon RDS for SQL Server,Amazon Redshift和Amazon S3以及MySQL,Oracle,Microsoft SQL中存储的数据在Amazon EC2上运行的虚拟私有云(Amazon VPC)中的服务器和PostgreSQL数据库。可以从Amazon Athena,Amazon EMR和Amazon Redshift Spectrum轻松访问存储在AWS Glue数据目录中的元数据。 您还可以编写自定义Scala或Python代码并将自定义库和Jar文件导入到Glue ETL作业中,以访问AWS Glue本身不支持的数据源。 导入自定义库,请参阅我们的文档。