我正在从没有火花的另一台服务器请求安装了Spark的服务器(只是在第二台服务器上安装了PySpark)。
当我启动此命令时,在第二台服务器上:
SELECT COUNT(DISTINCT(FOO)) over (PARTITION BY NULL) as bar
似乎可以在Spark Master GUI页面上正常工作:已经创建了一个会话。
但是,从第二台服务器中命名了创建Spark会话的用户。这不是通常在服务器上创建Spark会话的服务器1用户。 因此,我无法访问所有作业的阶段GUI页面,并且获得以下信息:
org.postgresql.util.PSQLException: ERROR: DISTINCT is not implemented for window functions
此外,当我想执行以下代码时:
bin/spark-submit --master spark://<ip_server_1>:7077 src/remote-spark/init.py
我得到此信息:
2019-05-02 08:18:57 INFO SecurityManager:54 - SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(<user_server_2>); groups with view permissions: Set(); users with modify permissions: Set(<user_server_2>); groups with modify permissions: Set()
但是我已经检查过并且我有足够的资源。
P.S .:我尝试使用参数#!/usr/bin/env python
# -*- coding: utf-8 -*-
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("remoteSpark") \
.master("spark://<ip_server_1>:7077") \
.config("spark.cores.max", 2) \
.config("spark.executor.memory", "2g") \
.getOrCreate()
df = spark.range(10)
df.sample(0.5, 3).count()
提交脚本,但是目前独立集群上的python应用程序目前不支持集群部署模式