使用Java比较Spark中的两个数据帧?

时间:2017-10-02 14:46:19

标签: java apache-spark spark-dataframe

我有一个名为'sample_event'的表,看起来像

+-----+-------------------------+-------------------+---------------+
| id  | log_timestamp           | action_performed  | activity_date |
+-----+-------------------------+-------------------+---------------+
| 1   |  2017-06-01 23:40:07.0  | Clicked           | 2017-06-01    |
+-----+-------------------------+-------------------+---------------+

此表的架构包含数据类型: -

 root
  |-- id: integer (nullable = true)
  |-- log_timestamp: timestamp (nullable = true)
  |-- action_performed: string (nullable = true)
  |-- activity_date: date (nullable = true)

我的数据框如

Dataset<Row> df = sparkContext.sql("SELECT * FROM sample_event WHERE id=1")

我想通过从表中创建具有相同值的新数据帧来测试数据帧的值和类型。如何使用上述模式在Java中创建数据框?

1 个答案:

答案 0 :(得分:0)

创建表格

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name1 LIKE [db_name.]table_name2 [LOCATION path]

使用现有表或视图的定义/元数据创建MANAGED表。创建的表始终在默认仓库位置使用自己的目录。