尝试从Spark

时间:2017-03-13 16:27:50

标签: apache-spark-sql pyspark-sql oracleclient

我正在尝试将Oracle连接到Spark并希望从某些表和SQL查询中提取数据。但我无法连接到Oracle。我尝试了不同的选项,但不看。我按照以下步骤操作。如果我需要进行任何更改,请纠正我。

我正在使用Windows 7机器。 我使用Jupyter笔记本来使用Pyspark。 我有python 2.7和Spark 2.1.0。 我在环境变量中设置了一个spark类路径:

  SPARK_CLASS_PATH = C:\Oracle\Product\11.2.0\client_1\jdbc\lib\ojdbc6.jar

jdbcDF = sqlContext.read.format(“jdbc”)。option(“driver”,“oracle.jdbc.driver.OracleDriver”)。option(“url”,“jdbc:oracle:// dbserver:port# /数据库 “)。选项(” DBTABLE”, “表格名”)。选项( “用户”, “用户名”)。选项( “密码”, “密码”)。负载()

错误:

1.Py4JJavaError:

An error occurred while calling o148.load.
: java.sql.SQLException: Invalid Oracle URL specified

2.Py4JJavaError:

An error occurred while calling o114.load. : java.lang.ClassNotFoundException: oracle.jdbc.driver.OracleDriver

另一种情景:

  from pyspark import SparkContext, SparkConf
    from pyspark.sql import SQLContext
    ORACLE_DRIVER_PATH = "C:\Oracle\Product\11.2.0\client_1\jdbc\lib\ojdbc7.jar"                                            
    Oracle_CONNECTION_URL ="jdbc:oracle:thin:username/password@servername:port#/dbservicename"    
   conf = SparkConf()
   conf.setMaster("local")
   conf.setAppName("Oracle_imp_exp")       
   sqlContext = SQLContext(sc)
   ora_tmp=sqlContext.read.format('jdbc').options(
        url=Oracle_CONNECTION_URL,
        dbtable="tablename",
        driver="oracle.jdbc.OracleDriver"
        ).load() 

我收到以下错误。

Error: IllegalArgumentException: u"Error while instantiating org.apache.spark.sql.hive.HiveSessionState':"

请帮我解决这个问题。

2 个答案:

答案 0 :(得分:1)

这个变化得到了解决。

   sqlContext = SQLContext(sc)
   ora_tmp=spark.read.format('jdbc').options(
        url=Oracle_CONNECTION_URL,
        dbtable="tablename",
        driver="oracle.jdbc.OracleDriver"
        ).load() 

答案 1 :(得分:0)

我遵循以下代码,它对我有用。导入jdbc驱动器(ojdbc6)。

    import org.apache.spark.sql.SparkSession

    object ConnectingOracleDatabase {
      def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder()
          .appName("ConnectingOracleDatabase")
          .master("local")
          .getOrCreate()

    val jdbcDF = spark.read
      .format("jdbc")
      .option("url", "jdbc:oracle:thin:@localhost:1521:xe")
      .option("dbtable", "ADDRESS")
      .option("user", "system")
      .option("password", "oracle")
      .option("driver", "oracle.jdbc.OracleDriver")
      .load()

    jdbcDF.show()

  }
}