Azure Databricks-将Parquet文件读入DataFrames

时间:2019-10-15 23:25:00

标签: python dataframe parquet azure-databricks

一个使用Python的新手...试图从Databricks中读取镶木地板文件,但是当该文件为空时抛出错误。在将文件读入DataFrame之前如何检查文件大小。下面的代码:

%python

##check if file is empty ???
##if not empty read
##else do something else

try:
   parquetDF =              
   spark.read.parquet("wasbs://XXXXX@XXXX.blob.core.windows.net/XXXX/2019-10- 11/account.parquet")
except:
   print('File is Empty !!!')

1 个答案:

答案 0 :(得分:0)

目前正在按以下步骤进行操作

%python
import pandas as pd
data = {
    'Dummy': ['Dummy'], 
}
parquetDF = pd.DataFrame(data)
try:
  parquetDF = spark.read.parquet("wasbs://XXXXX@XXXXX.blob.core.windows.net/XXXXX/2019-10-11/account.parquet")
except:
  print('Empty File!!!')
if (parquetDF.columns[0] == 'Dummy'):
  print('Do Nothing !!!!')
else:
  print('Do Something !!!')

创建虚拟DataFrame,然后尝试将实木复合地板数据加载到DataFrame中。如果任何例外/源文件为空,则不会加载DF。然后检查DF是否已加载并进行相应处理。

也尝试读取文件大小,但出现异常“无此文件或目录”

%python
import os
statinfo = os.stat("wasbs://XXXXX@XXXXX.blob.core.windows.net/XXXXX/2019-10-11/account.parquet")
statinfo