将表加载到DF中时,Spark 2.2.0无法连接到Phoenix 4.11.0版本

时间:2018-07-30 08:13:51

标签: pyspark hbase phoenix

我正在使用下面的技术堆栈,并尝试使用PySpark代码连接Phoenix表。我已经从网址下载了以下jar,并尝试执行以下代码。在日志中,已建立与hbase的连接,但控制台无法执行任何操作。请让我知道是否有人遇到并解决了类似问题。

https://mvnrepository.com/artifact/org.apache.phoenix/phoenix-spark/4.11.0-HBase-1.2

罐子: phoenix-spark-4.11.0-HBase-1.2.jar phoenix-client.jar

所有在同一主机上运行的技术堆栈:

Apache Spark 2.2.0版本

Hbase 1.2版本

Phoenix 4.11.0版本

在文件夹路径/spark/conf/hbase-site.xml中复制hbase-site.xml。

命令已执行->

usr / local / spark> spark-submit phoenix.py --jars /usr/local/spark/jars/phoenix-spark-4.11.0-HBase-1.2.jar --jars / usr / local / spark / jars / phoenix-client.jar

Phoenix.py:

from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext

conf = SparkConf().setAppName("pysparkPhoenixLoad").setMaster("local")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)

df = sqlContext.read.format("org.apache.phoenix.spark").option("table", 
"schema.table1").option("zkUrl", "localhost:2181").load()
df.show()

错误日志:Hbase连接已建立,但是在控制台中它被卡住并引发超时错误

18/07/30 12:28:15警告HBaseConfiguration:不建议使用配置选项“ hbase.regionserver.lease.period”。而是使用“ hbase.client.scanner.timeout.period”

18/07/30 12:28:54信息RpcRetryingCaller:调用异常,try = 10,retries = 35,start = 38367 ms ago,cancelled = false,msg = row'SYSTEM:CATALOG,'on table' hbase:meta'at region = hbase:meta ,, 1.1588230740,主机名= master01,16020,1532591192223,seqNum = 0

1 个答案:

答案 0 :(得分:0)

看看这些答案:

这两个问题都发生在Java(使用JDBC)中,但在这里看起来却是类似的问题。

尝试将ZooKeeper主机名(如错误消息中所示,master01添加到您的/etc/hosts中:

127.0.0.1    master01

如果您正在本地运行所有堆栈。