我是 SPARK 的新手,需要帮助。
我有 .csv 文件,其结构如下:
| ID | NAME | DATE_TIME |
+----+---------+----------------+
| 01 | GHYDNSH | 20181023201437 |
| 02 | GHJUDLG | 20181023201500 |
| 03 | FHGYTNM | 20181023201630 |
如您所见,第三列(DATE_TIME
)的格式为yyyyMMddHHmmss
。
我需要过滤两个期间之间的所有记录。如何正确制作?
让我们说我有两个字符串变量作为输入。
val start = "2018-10-01 22:35:15"
val end = "2018-10-10 10:15:00"
val reports= spark.read.option("delimiter", "|").csv("reports/*").filter(???)