Apache Spark,读取outlook .pst文件

时间:2016-10-08 23:04:51

标签: apache-spark pst

我试图从安然电子邮件中读取数据,然后对其进行分析。目前所有文件都是压缩的,然后是.pst格式。

有没有将.pst数据直接读入spark?

我目前正在沿着使用libPST在Java中扩展PST的路线,映射到JSON然后将json加载到数据帧中。

1 个答案:

答案 0 :(得分:0)

您可以使用 spark 版本 3。在 spark 版本 3 之后,我们可以将其读取为二进制文件。