Question

我编写了使用SparkSQL访问Hive表的代码。这是代码：

SparkSession spark = SparkSession
        .builder()
        .appName("Java Spark Hive Example")
        .master("local[*]")
        .config("hive.metastore.uris", "thrift://localhost:9083")
        .enableHiveSupport()
        .getOrCreate();
Dataset<Row> df =  spark.sql("select survey_response_value from health").toDF();
df.show();

我想知道如何将完整输出转换为String或String数组？因为我正在尝试使用另一个模块，只有我可以传递String或String类型的数组值我尝试过其他方法，如.toString或类型转换为String值。但对我没有用。
请告诉我如何将DataSet值转换为String？

Answer 1

以下是Java中的示例代码。

public class SparkSample {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
            .builder()
            .appName("SparkSample")
            .master("local[*]")
            .getOrCreate();
    //create df
    List<String> myList = Arrays.asList("one", "two", "three", "four", "five");
    Dataset<Row> df = spark.createDataset(myList, Encoders.STRING()).toDF();
    df.show();
    //using df.as
    List<String> listOne = df.as(Encoders.STRING()).collectAsList();
    System.out.println(listOne);
    //using df.map
    List<String> listTwo = df.map(row -> row.mkString(), Encoders.STRING()).collectAsList();
    System.out.println(listTwo);
  }
}

＆＃34;排＆＃34;是java 8 lambda参数。请检查developer.com/java/start-using-java-lambda-expressions.html

Answer 2

您可以使用map函数将每一行转换为字符串，例如：

df.map(row => row.mkString())

而不仅仅是mkString，你当然可以做更复杂的工作

然后collect方法可以将整个事物转换为数组

val strings = df.map(row => row.mkString()).collect

（这是Scala语法，我认为在Java中它非常相似）

Answer 3

如果您打算逐行读取数据集，则可以对数据集使用迭代器：

 Dataset<Row>csv=session.read().format("csv").option("sep",",").option("inferSchema",true).option("escape, "\"").option("header", true).option("multiline",true).load(users/abc/....);

for(Iterator<Row> iter = csv.toLocalIterator(); iter.hasNext();) {
    String item = (iter.next()).toString();
    System.out.println(item.toString());    
}

Answer 4

作为一个单一的字符串，从 sparkSession 你可以做到：

sparkSession.read.textFile(filePath).collect.mkString

假设您的数据集是字符串类型：Dataset[String]

如何将Spark Row的数据集转换为字符串？

4 个答案: