迭代给定的数据集并返回仅包含有效列的另一个数据集

时间:2019-07-23 06:32:32

标签: java apache-spark

给出一个数据集,其中每一列都包含电话号码,返回数据集,其中包含所有电话号码均已正确格式化的列。 Sample input and expected output.

有效格式: (ddd)-ddd-dddd,ddd-ddd-dddd,ddd-ddddddd和dddddddddd

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.Column;
import org.apache.commons.lang.StringUtils;
import java.io.*;

public class FilterCol {

  public static Dataset<Row> filterColumns(Dataset<Row> df) {

    Dataset<Row> validCols = null;
    return validCols;
  }
}

我正在寻找一种迭代列的方法,一次迭代一行,这样就可以跳过甚至只有一个无效电话号码/行的列。

0 个答案:

没有答案