我在pyspark
中有脚本,如下所示。我想在此脚本中对function
进行单元测试。
def rename_chars(column_name):
chars = ((' ', '_&'), ('.', '_$'))
new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name)
return new_cols
def column_names(df):
changed_col_names = df.schema.names
for cols in changed_col_names:
df = df.withColumnRenamed(cols, rename_chars(cols))
return df
我写了一个unittest
,如下所示来测试这个功能。
但我不知道如何提交unittest
。我做了spark-submit
但没有做任何事情。
import unittest
from my_script import column_names
from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
conf = SparkConf()
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
cols = ['ID', 'NAME', 'last.name', 'abc test']
val = [(1, 'Sam', 'SMITH', 'eng'), (2, 'RAM', 'Reddy', 'turbine')]
df = sqlContext.createDataFrame(val, cols)
class RenameColumnNames(unittest.TestCase):
def test_column_names(self):
df1 = column_names(df)
result = df1.schema.names
expected = ['ID', 'NAME', 'last_$name', 'abc_&test']
self.assertEqual(result, expected)
如何将此脚本集成为unittest
我可以在已安装pyspark
的节点上运行此操作吗?
答案 0 :(得分:5)
Pyspark Unittests指南
1.您需要从站点download Spark分发并解压缩。或者,如果您已经有Spark和Python的工作分发,只需安装 pyspark :pip install pyspark
2.如果需要,设置这样的系统变量:
export SPARK_HOME="/home/eugene/spark-1.6.0-bin-hadoop2.6"
export PYTHONPATH="$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH"
export PATH="SPARK_HOME/bin:$PATH"
我在.profile的主目录中添加了这个。 如果您已经有Spark的工作分布,则可以设置此变量。
3.另外,您可能需要设置:
PYSPARK_SUBMIT_ARGS="--jars path/to/hive/jars/jar.jar,path/to/other/jars/jar.jar --conf spark.driver.userClassPathFirst=true --master local[*] pyspark-shell"
PYSPARK_PYTHON="/home/eugene/anaconda3/envs/ste/bin/python3"
Python和广告?是的。 Pyspark uses py4j与Spark的java部分进行通信。如果你想解决更复杂的情况,比如run Kafka server with tests in Python或者像Scala那样使用TestHiveContext,你应该指定jars。 我是通过Idea运行配置环境变量完成的。
4.您可以使用包含各种TestCase类的pyspark/tests.py
,pyspark/streaming/tests.py
,pyspark/sql/tests.py
,pyspark/ml/tests.py
,pyspark/mllib/tests.py
脚本以及测试pyspark的示例应用。在你的情况下你可以做(例如来自pyspark / sql / tests.py):
class HiveContextSQLTests(ReusedPySparkTestCase):
@classmethod
def setUpClass(cls):
ReusedPySparkTestCase.setUpClass()
cls.tempdir = tempfile.NamedTemporaryFile(delete=False)
try:
cls.sc._jvm.org.apache.hadoop.hive.conf.HiveConf()
except py4j.protocol.Py4JError:
cls.tearDownClass()
raise unittest.SkipTest("Hive is not available")
except TypeError:
cls.tearDownClass()
raise unittest.SkipTest("Hive is not available")
os.unlink(cls.tempdir.name)
_scala_HiveContext =\
cls.sc._jvm.org.apache.spark.sql.hive.test.TestHiveContext(cls.sc._jsc.sc())
cls.sqlCtx = HiveContext(cls.sc, _scala_HiveContext)
cls.testData = [Row(key=i, value=str(i)) for i in range(100)]
cls.df = cls.sc.parallelize(cls.testData).toDF()
@classmethod
def tearDownClass(cls):
ReusedPySparkTestCase.tearDownClass()
shutil.rmtree(cls.tempdir.name, ignore_errors=True)
但是您需要在PYSPARK_SUBMIT_ARGS中指定带有Hive库的-jars,如前所述
或没有Hive:
class SQLContextTests(ReusedPySparkTestCase):
def test_get_or_create(self):
sqlCtx = SQLContext.getOrCreate(self.sc)
self.assertTrue(SQLContext.getOrCreate(self.sc) is sqlCtx)
我知道如果已经通过pip
安装了pyspark,那么你没有在示例中描述的tests.py。在这种情况下,只需从Spark站点下载发行版并复制代码示例。
现在您可以正常运行TestCase:python -m unittest test.py
<强>更新强> 由于不推荐使用HiveContext和SqlContext的spark 2.3。 您可以使用SparkSession Hive API。
答案 1 :(得分:2)
这是一种方法。在CLI调用中:
python -m unittest my_unit_test_script.py
<强>代码强>
import functools
import unittest
from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
def rename_chars(column_name):
chars = ((' ', '_&'), ('.', '_$'))
new_cols = functools.reduce(lambda a, kv: a.replace(*kv), chars, column_name)
return new_cols
def column_names(df):
changed_col_names = df.schema.names
for cols in changed_col_names:
df = df.withColumnRenamed(cols, rename_chars(cols))
return df
class RenameColumnNames(unittest.TestCase):
def setUp(self):
conf = SparkConf()
sc = SparkContext(conf=conf)
self.sqlContext = HiveContext(sc)
def test_column_names(self):
cols = ['ID', 'NAME', 'last.name', 'abc test']
val = [(1, 'Sam', 'SMITH', 'eng'), (2, 'RAM', 'Reddy', 'turbine')]
df = self.sqlContext.createDataFrame(val, cols)
result = df.schema.names
expected = ['ID', 'NAME', 'last_$name', 'abc_&test']
self.assertEqual(result, expected)
答案 2 :(得分:1)
假设您已安装pyspark
(例如,venv上的pip install pyspark
),则可以使用以下类在unittest
中对其进行单元测试:
import unittest
import pyspark
class PySparkTestCase(unittest.TestCase):
@classmethod
def setUpClass(cls):
conf = pyspark.SparkConf().setMaster("local[*]").setAppName("testing")
cls.sc = pyspark.SparkContext(conf=conf)
cls.spark = pyspark.SQLContext(cls.sc)
@classmethod
def tearDownClass(cls):
cls.sc.stop()
示例:
class SimpleTestCase(PySparkTestCase):
def test_with_rdd(self):
test_input = [
' hello spark ',
' hello again spark spark'
]
input_rdd = self.sc.parallelize(test_input, 1)
from operator import add
results = input_rdd.flatMap(lambda x: x.split()).map(lambda x: (x, 1)).reduceByKey(add).collect()
self.assertEqual(results, [('hello', 2), ('spark', 3), ('again', 1)])
def test_with_df(self):
df = self.spark.createDataFrame(data=[[1, 'a'], [2, 'b']],
schema=['c1', 'c2'])
self.assertEqual(df.count(), 2)
请注意,这将为每个类创建一个上下文。使用setUp
代替setUpClass
来获得每个测试的上下文。由于创建新的Spark上下文当前非常昂贵,因此通常会在执行测试时增加大量开销。
答案 3 :(得分:1)
这是一种测试功能的轻量级方法。您无需下载Spark即可运行PySpark测试,如接受的答案大纲。下载Spark是一个选项,但不是必需的。这是测试:
import pysparktestingexample.stackoverflow as SO
from chispa import assert_df_equality
import pyspark.sql.functions as F
def test_column_names(spark):
source_data = [
("jose", "oak", "switch")
]
source_df = spark.createDataFrame(source_data, ["some first name", "some.tree.type", "a gaming.system"])
actual_df = SO.column_names(source_df)
expected_data = [
("jose", "oak", "switch")
]
expected_df = spark.createDataFrame(expected_data, ["some_&first_&name", "some_$tree_$type", "a_&gaming_$system"])
assert_df_equality(actual_df, expected_df)
测试使用的SparkSession在tests/conftest.py
文件中定义:
import pytest
from pyspark.sql import SparkSession
@pytest.fixture(scope='session')
def spark():
return SparkSession.builder \
.master("local") \
.appName("chispa") \
.getOrCreate()
该测试使用了chispa库中定义的assert_df_equality
函数。
这是GitHub存储库中的your code和the test。
在Python社区中,通常优先使用 pytest而不是unittest。 This blog post解释了如何测试PySpark程序,具有讽刺意味的是具有modify_column_names
功能,可让您更优雅地重命名这些列。
def modify_column_names(df, fun):
for col_name in df.columns:
df = df.withColumnRenamed(col_name, fun(col_name))
return df