我正在尝试创建一个可以计算两个时间戳之间的时差并将其结果加载到配置单元表中的spark应用。
我可以从csv中读取数据并将其加载到hive表中,但是我正在寻找pandas或numpy中可用的函数或可以计算实际时差(不包括周末和节假日)的任何模块
\begin{tcolorbox}
\end{tcolorbox}
尝试使用toPandas从Spark df转换为熊猫DF,并出现以下错误:
+----------------+----------------+------#
|close_date |open_date | case|
+----------------+----------------+------#
|2019-08-19 15:21|2019-08-05 15:54| 41311|
|2019-08-22 14:58|2019-08-21 16:25| 45569|
|2019-08-17 10:41|2019-08-13 18:45| 88438|
|2019-08-19 15:16|2019-06-18 12:13| 12224|