我想将其他python / csv文件导入到我的python udf中以执行某些操作
像,
将表数据(以流为单位,逐行流入)与外部.csv行进行比较
当我尝试读取.csv文件的数据时,它给了我一个错误
IOError:文件/home/abc/xyz/myfile.csv不存在
虽然代码编写为常规python脚本(不像udf)时代码运行良好
答案 0 :(得分:1)
如果我理解正确的话。你可以试试 添加文件[完整的文件路径] 要么 添加文件[您的目录路径]。
因为在引用群集之前的任何内容之前,必须将其添加到分发缓存中,以便那里的代码可以访问该部分。 你可以看看它。 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli
答案 1 :(得分:0)
注意语法!它可能会导致许多问题,遗憾的是,查询语言解释器无法显示问题的来源,只是显示了一些常规错误报告。
在这里查看由于解决文件时的语法问题而引起的同样问题!