Question

我是Big Insights的新手。我正在开发关于云4.1，Ambari 2.2.0和Spark 1.6.1的BigInsigths 如果连接在scala或python中并不重要，但我需要使用spark进行数据处理，然后将其保存在BigSql中。这可能吗？提前谢谢。

Answer 1

检查syshadoop.execspark以查看如何执行Spark Jobs并以表格格式返回输出，之后您可以插入表或与其他表连接。

https://www.ibm.com/support/knowledgecenter/en/SSPT3X_4.3.0/com.ibm.swg.im.infosphere.biginsights.db2biga.doc/doc/biga_execspark.html

SELECT *
  FROM TABLE(SYSHADOOP.EXECSPARK(
    class    => 'DataSource',
    format   => 'json',
    uriload  => 'hdfs://host.port.com:8020/user/bigsql/demo.json'
    )
  ) AS doc
  WHERE doc.country IS NOT NULL
  LIMIT 5

Answer 2

以下是使用BigInsights中的jdbc通过PySpark连接BigSQL的步骤 -

1.在python库中放置db2jcc4.jar（IBM驱动程序连接到BigSQL，可以从http://www-01.ibm.com/support/docview.wss?uid=swg21363866下载）。

2.在spark-defaults.conf文件中添加jar文件路径（位于spark安装的conf文件夹中） spark.driver.extraClassPath /usr/lib/spark/python/lib/db2jcc4.jar spark.executor.extraClassPath /usr/lib/spark/python/lib/db2jcc4.jar

或

使用jar路径启动Spark Shell - pyspark --jars /usr/lib/spark/python/lib/db2jcc4.jar

3.使用sqlContext.read.format指定JDBC URL和其他驱动程序信息 -

来自pyspark.sql导入SQLContext

sqlContext = SQLContext（SC）

df = sqlContext.read.format（“jdbc”）。option（url =“jdbc：db2：// hostname：port / bigsql”，driver =“com.ibm.db2.jcc.DB2Driver”，dbtable = “tablename”，user =“username”，password =“password”）。load（）

df.show（）

如何从spark 1.6连接到bigsql

2 个答案: