如何从spark 1.6连接到bigsql

时间:2017-06-09 20:35:27

标签: apache-spark pyspark biginsights bigsql bigdata

我是Big Insights的新手。我正在开发关于云4.1,Ambari 2.2.0和Spark 1.6.1的BigInsigths 如果连接在scala或python中并不重要,但我需要使用spark进行数据处理,然后将其保存在BigSql中。这可能吗?提前谢谢。

2 个答案:

答案 0 :(得分:0)

检查syshadoop.execspark以查看如何执行Spark Jobs并以表格格式返回输出,之后您可以插入表或与其他表连接。

https://www.ibm.com/support/knowledgecenter/en/SSPT3X_4.3.0/com.ibm.swg.im.infosphere.biginsights.db2biga.doc/doc/biga_execspark.html

SELECT *
  FROM TABLE(SYSHADOOP.EXECSPARK(
    class    => 'DataSource',
    format   => 'json',
    uriload  => 'hdfs://host.port.com:8020/user/bigsql/demo.json'
    )
  ) AS doc
  WHERE doc.country IS NOT NULL
  LIMIT 5

答案 1 :(得分:0)

以下是使用BigInsights中的jdbc通过PySpark连接BigSQL的步骤 -

1.在python库中放置db2jcc4.jar(IBM驱动程序连接到BigSQL,可以从http://www-01.ibm.com/support/docview.wss?uid=swg21363866下载)。

2.在spark-defaults.conf文件中添加jar文件路径(位于spark安装的conf文件夹中) spark.driver.extraClassPath /usr/lib/spark/python/lib/db2jcc4.jar spark.executor.extraClassPath /usr/lib/spark/python/lib/db2jcc4.jar

使用jar路径启动Spark Shell - pyspark --jars /usr/lib/spark/python/lib/db2jcc4.jar

3.使用sqlContext.read.format指定JDBC URL和其他驱动程序信息 -

来自pyspark.sql导入SQLContext

sqlContext = SQLContext(SC)

df = sqlContext.read.format(“jdbc”)。option(url =“jdbc:db2:// hostname:port / bigsql”,driver =“com.ibm.db2.jcc.DB2Driver”,dbtable = “tablename”,user =“username”,password =“password”)。load()

df.show()