我在数据库中有一些数据,我希望使用 sparklyr 在Spark中使用它。
我可以使用基于 DBI 的包将数据库中的数据导入R
dbconn <- dbConnect(<some connection args>)
data_in_r <- dbReadTable(dbconn, "a table")
然后使用
将数据从R复制到Sparksconn <- spark_connect(<some connection args>)
data_ptr <- copy_to(sconn, data_in_r)
对于大数据集,复制两次很慢。
如何直接将数据从数据库复制到Spark?
sparklyr 有几个spark_read_*()
函数用于导入,但没有数据库相关。 sdf_import()
看起来像是一种可能性,但在这种情况下,它并不清楚如何使用它。
答案 0 :(得分:5)
Sparklyr&gt; = 0.6.0
您可以使用spark_read_jdbc
。
Sparklyr&lt; 0.6.0 强>
我希望有更优雅的解决方案,但这是使用低级API的最小示例:
确保Spark可以访问所需的JDBC驱动程序,例如将其坐标添加到spark.jars.packages
。例如,使用PostgreSQL(调整当前版本),您可以添加:
spark.jars.packages org.postgresql:postgresql:9.4.1212
到SPARK_HOME/conf/spark-defaults.conf
加载数据并注册为临时视图:
name <- "foo"
spark_session(sc) %>%
invoke("read") %>%
# JDBC URL and table name
invoke("option", "url", "jdbc:postgresql://host/database") %>%
invoke("option", "dbtable", "table") %>%
# Add optional credentials
invoke("option", "user", "scott") %>%
invoke("option", "password", "tiger") %>%
# Driver class, here for PostgreSQL
invoke("option", "driver", "org.postgresql.Driver") %>%
# Read and register as a temporary view
invoke("format", "jdbc") %>%
invoke("load") %>%
# Spark 2.x, registerTempTable in 1.x
invoke("createOrReplaceTempView", name)
您可以使用options
一次传递多个environment
:
invoke("options", as.environment(list(
user="scott", password="tiger", url="jdbc:..."
)))
使用dplyr
加载临时视图:
dplyr::tbl(sc, name)
请务必阅读有关更多JDBC选项的内容,重点关注partitionColumn
,*Bound
和numPartitions
。
有关其他详细信息,请参阅示例How to use JDBC source to write and read data in (Py)Spark?和How to improve performance for slow Spark jobs using DataFrame and JDBC connection?