数据块-FileNotFoundException

时间:2019-10-03 14:21:13

标签: dataframe pyspark apache-spark-sql databricks

对不起,这很简单,我错过了一些简单的事情。我正在尝试运行以下代码来遍历文件夹中的文件,并将以特定字符串开头的所有文件合并到数据框中。所有文件都坐在湖中。

file_list=[]
path = "/dbfs/rawdata/2019/01/01/parent/"
files  = dbutils.fs.ls(path)
for file in files:
    if(file.name.startswith("CW")):
       file_list.append(file.name)
df = spark.read.load(path=file_list)

# check point
print("Shape: ", df.count(),"," , len(df.columns))
db.printSchema()

在我看来,这很好,但显然这里有些问题。我在这条线上出现错误:
files = dbutils.fs.ls(path)

错误消息显示:

java.io.FileNotFoundException: File/6199764716474501/dbfs/rawdata/2019/01/01/parent does not exist.

路径,文件以及其他所有内容绝对存在。我尝试使用和不使用“ dbfs”部分。可能是权限问题?还有吗我用Google搜索了一个解决方案。仍然无法获得牵引力。

1 个答案:

答案 0 :(得分:1)

如果父文件夹从“ rawdata”开始,请确保有一个名为“ dbfs”的文件夹,路径应为“ / rawdata / 2019/01/01 / parent”或“ rawdata / 2019/01/01 / parent” 。

如果路径不正确,则会引发错误。