在Apache Spark数据框中读取pdf文件

时间:2018-10-31 05:07:40

标签: scala apache-spark dataframe

我们可以使用以下代码读取avro文件

val df = spark.read.format("com.databricks.spark.avro").load(path)

是否可以使用Spark数据框读取pdf文件?

1 个答案:

答案 0 :(得分:0)

您无法阅读pdf并将其存储在df中,因为它不会中断数据框的列(基本上它没有标准架构),因此,如果要获取一些数据从pdf文件中获取,首先将其转换为csv或parquet,然后可以从该文件中读取内容,然后创建一个具有已定义架构的数据框

访问此gitbook,以了解有关可用于将数据作为数据框获取的可用读取格式的更多信息

DataFrameReader — Loading Data From External Data Sources