应用错误收集

您可以使用filter方法生成没有这些记录的新数据集。

请注意，数据集是不可变的，因此您无法修改它们（即删除记录）。

Spark中的DataFrame就像RDD一样，它们本质上是一个不可变的数据结构。因此，诸如创建新列或删除行，或者尝试通过索引访问DataFrame中的单个元素之类的东西不可能存在，只是因为这种做法违背了Spark的不可变RDD的原则。

您唯一能想到的就是使用过滤器

等转换功能将其转换为您想要的数据框

val df = spark.read.json（＆＃34; examples / src / main / test / employee.json＆＃34;）

//将DataFrame注册为SQL临时视图 df.createOrReplaceTempView（＆＃34;雇员＆＃34）

val sqlDF = spark.sql（＆＃34; SELECT * FROM employee where customer_id！= 002＆＃34;）

使用此代码，您可以删除具有customer_id = 002的记录，并可以将过滤后的记录写入文件或表格中

sqlDF.createOrReplaceTempView（＆＃34;员工＆＃34;）//创建员工视图

sqlDF.write.format（＆＃34; parquet＆＃34;）。save（＆＃34; employee.parquet＆＃34;）//保存镶木地板文件