Question

我是 pyspark 的新手。我在数据砖版本 7.4 中运行 pyspark，包括 Apache spark 版本 3.0.1。我正在尝试使用不等于条件过滤我的 pyspark 数据框。这是我的 pyspakrk 数据框示例

--------+------------------+------------------+------------------+------------------+---------+------ ------------+
|      Date|              Open|              High|               Low|             Close|   Volume|         
Adj Close|
+----------+------------------+------------------+------------------+------------------+---------+--- 
---------------+
|2010-01-04|        213.429998|        214.499996|212.38000099999996|        214.009998|123432400|         
27.727039|
|2010-01-05|        214.599998|        215.589994|        213.249994|        
214.379993|150476200|27.774976000000002|
|2010-01-06|        214.379993|            215.23|        210.750004|        
210.969995|138040000|27.333178000000004|
|2010-01-07|            211.75|        212.000006|        209.050005|            210.58|119282800|          
27.28265|
|2010-01-08|        210.299994|        212.000006|209.06000500000002|211.98000499999998|111902700|         
27.464034|
|2010-01-11|212.79999700000002|        213.000002|        208.450005|210.11000299999998|115557400|         
27.221758|
|2010-01-12|209.18999499999998|209.76999500000002|        206.419998|        207.720001|148614900|          
26.91211|

我正在尝试过滤关闭小于 500 且打开不小于 500 的数据框。所以我使用了以下代码

df.filter((df['Close']<500) ~(df['Open']<500)).show()

但我收到错误 invalid syntax 并且它指向不等于运算符。 pyspark 中是否有不同的不等于运算符？

Pyspark 数据帧中的多重过滤条件不等于条件

0 个答案: