我正在尝试使用PyCharm从DBFS中读取内容来执行python脚本。我遇到两个挑战:
我无法从DBFS读取文件。我将路径指定为“ /dbfs/x/y.csv”,但收到一条错误消息,指出未找到该文件。我尝试将文件移动到驱动程序,即使在那之后,我仍然遇到相同的错误。但是另一方面,如果我使用Spark进行读取,则从DBFS读取是容易的(甚至是从PyCharm)。不幸的是,由于我使用的是python,因此我并不想这样做。
如果我运行脚本,似乎脚本是在本地计算机上而不是在Databricks上执行的(执行此操作后,我看到的内存和CPU利用率接近100%)。有没有办法让Databricks运行代码?
仅供参考:这是python代码,我正在使用重复数据删除库,因此需要无法通过Databricks笔记本访问的CLI。另外,dbconnect test命令顺利通过,我可以看到正确的结果。如果这看起来完全是愚蠢的,我深表歉意,但是我觉得应该有一种超级简单的方法来实现这一目标,而无需我经历很多麻烦。
真的很感谢您的帮助。