标签: scala apache-spark apache-spark-sql apache-tika pst
我正在尝试处理Spark中的电子邮件(.pst文件),并且遇到了诸如tikka和libpst之类的有助于处理PST文件的库。
我应该如何使用它,是否应该实现自定义记录读取器来读取/解析文件? 有任何可用的链接吗?