如何在Spark中的DataFrame中过滤两个期间之间的所有记录?

时间:2019-01-17 14:00:24

标签: scala apache-spark

我是 SPARK 的新手,需要帮助。

我有 .csv 文件,其结构如下:

| ID | NAME    | DATE_TIME      |
+----+---------+----------------+
| 01 | GHYDNSH | 20181023201437 |
| 02 | GHJUDLG | 20181023201500 |
| 03 | FHGYTNM | 20181023201630 |

如您所见,第三列(DATE_TIME)的格式为yyyyMMddHHmmss

我需要过滤两个期间之间的所有记录。如何正确制作?

让我们说我有两个字符串变量作为输入。

val start = "2018-10-01 22:35:15"
val end = "2018-10-10 10:15:00"

val reports= spark.read.option("delimiter", "|").csv("reports/*").filter(???)

0 个答案:

没有答案